Statystyki i duże zbiory danych computational-statistics

21

Czy Julia ma jakąkolwiek nadzieję na pozostanie w społeczności statystycznej?

Niedawno przeczytałem post od R-Bloggerów, który zawiera link do tego postu na blogu od Johna Mylesa White'a na temat nowego języka o nazwie Julia . Julia korzysta z kompilatora „just-in-time”, który zapewnia niesamowity szybki czas działania i ustawia go na tym samym rzędzie wielkości co C / C ++ (ta …

161 r computational-statistics software computing julia

9

Jakiego algorytmu należy użyć do wykrywania nieprawidłowości w szeregach czasowych?

tło Pracuję w Network Operations Center, monitorujemy systemy komputerowe i ich wydajność. Jednym z kluczowych wskaźników do monitorowania jest liczba odwiedzających \ klientów aktualnie podłączonych do naszych serwerów. Aby to pokazać, zbieramy takie dane, jak dane szeregów czasowych i rysujemy wykresy. Grafit pozwala nam to zrobić, ma dość bogaty interfejs …

69 machine-learning time-series python computational-statistics anomaly-detection

8

Excel jako stół roboczy statystyk

Wygląda na to, że wiele osób (w tym ja) lubi analizować dane eksploracyjne w programie Excel. Niektóre ograniczenia, takie jak dozwolona liczba wierszy w arkuszu kalkulacyjnym, są uciążliwe, ale w większości przypadków nie uniemożliwiają korzystania z programu Excel do zabawy z danymi. Artykuł McCullougha i Heisera jednak praktycznie krzyczy, że …

52 software computational-statistics excel

6

Jaki algorytm stosuje się w regresji liniowej?

Zwykle słyszę o „zwykłych najmniejszych kwadratach”. Czy to najczęściej stosowany algorytm regresji liniowej? Czy istnieją powody, by użyć innego?

42 regression least-squares algorithms computational-statistics numerics

7

Koncepcja statystyczna wyjaśniająca, dlaczego rzadziej przewracasz tyle samo głów co ogony, gdy liczba przewrotów rośnie?

Pracuję nad nauką prawdopodobieństwa i statystyki, czytając kilka książek i pisząc kod, a podczas symulacji rzutu monetą zauważyłem coś, co uderzyło mnie nieco jako sprzeczne z naiwną intuicją. Jeśli rzucisz uczciwą monetę razy, stosunek główek do reszka zbiega się w kierunku 1, gdy wzrasta, dokładnie tak, jak można się spodziewać. …

28 probability computational-statistics

12

Narzędzie wiersza polecenia do obliczania podstawowych statystyk dla strumienia wartości [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte w zeszłym roku . Czy jest jakieś narzędzie wiersza polecenia, które akceptuje przepływ liczb (w formacie ascii) ze standardowego wejścia i podaje podstawowe statystyki opisowe …

27 descriptive-statistics computational-statistics computing

4

Jakie są prawidłowe wartości precyzji i przywołania w przypadkach krawędzi?

Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

Jak dopasować rozkład dyskretny do zliczania danych?

Mam następujący histogram danych zliczania. I chciałbym dopasować do niego dyskretny rozkład. Nie jestem pewien, jak powinienem to zrobić. Czy powinienem najpierw nałożyć na histogram rozkład dyskretny, powiedzmy ujemny rozkład dwumianowy, aby uzyskać parametry rozkładu dyskretnego, a następnie uruchomić test Kołmogorowa – Smirnowa, aby sprawdzić wartości p? Nie jestem pewien, …

17 r poisson-distribution discrete-data computational-statistics negative-binomial

1

Jak stochastyczne obniżanie gradientu może zaoszczędzić czas w porównaniu ze standardowym spadkiem gradientu?

Standardowe zejście gradientu obliczałoby gradient dla całego zestawu danych treningowych. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Dla wstępnie zdefiniowanej liczby epok najpierw obliczamy wektor gradientu wagi_grad funkcji straty dla całego zestawu danych w stosunku do naszych parametrów wektora parametru. Natomiast …

16 machine-learning optimization gradient-descent computational-statistics sgd

1

Jakiej metody wielokrotnego porównania użyć w modelu Lmer: lsmeans czy glht?

Analizuję zestaw danych przy użyciu modelu efektów mieszanych z jednym ustalonym efektem (warunkiem) i dwoma efektami losowymi (uczestnik ze względu na projekt i parę wewnątrz przedmiotu). Model ten został wygenerowany z lme4pakietu: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Następnie wykonałem test współczynnika wiarygodności tego modelu względem modelu bez ustalonego efektu (warunku) i mam znaczącą różnicę. …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

Jakie są ważne zastosowania generowania liczb losowych w statystyce obliczeniowej?

Jak i dlaczego generatory liczb losowych (RNG) są ważne w statystyce obliczeniowej? Rozumiem, że losowość jest ważna przy wyborze próbek do wielu testów statystycznych, aby uniknąć stronniczości wobec którejkolwiek hipotezy, ale czy istnieją inne obszary statystyki obliczeniowej, w których ważne są generatory liczb losowych?

15 hypothesis-testing monte-carlo algorithms random-generation computational-statistics

2

Czym ABC i MCMC różnią się w swoich aplikacjach?

O ile mi wiadomo, przybliżone obliczenia bayesowskie (ABC) i łańcuch Markowa Monte Carlo (MCMC) mają bardzo podobne cele. Poniżej opisuję moje rozumienie tych metod oraz sposób, w jaki postrzegam różnice w ich zastosowaniu do rzeczywistych danych. Przybliżone obliczenia bayesowskie ABC polega na pobraniu próbek parametru θθ\theta z poprzedniego poprzez symulację …

15 bayesian mcmc computational-statistics

3

Czy niektórzy z was używają arkusza kalkulacyjnego Dokumentów Google do prowadzenia i udostępniania swojej pracy statystycznej innym?

Wiem, że większość z was prawdopodobnie uważa, że Dokumenty Google są nadal prymitywnym narzędziem. To nie jest Matlab ani R, a nawet Excel. Jestem jednak zaskoczony mocą tego oprogramowania internetowego, które korzysta tylko z możliwości działania przeglądarki (i jest kompatybilne z wieloma przeglądarkami, które działają zupełnie inaczej). Aktywny na tym …

15 software computational-statistics

9

Jakie książki zawierają przegląd statystyk obliczeniowych dotyczących informatyki?

Jako inżynier oprogramowania interesuję się takimi tematami, jak algorytmy statystyczne, eksploracja danych, uczenie maszynowe, sieci bayesowskie, algorytmy klasyfikacji, sieci neuronowe, łańcuchy Markowa, metody Monte Carlo i generowanie liczb losowych. Osobiście nie miałem przyjemności pracy z żadną z tych technik, ale musiałem pracować z oprogramowaniem, które pod maską je zastosowało i …

15 references computational-statistics computing

4

Wydajna aktualizacja regresji liniowej podczas dodawania obserwacji i / lub predyktorów w R

Byłbym zainteresowany znalezieniem sposobów na R efektywnego aktualizowania modelu liniowego po dodaniu obserwacji lub predyktora. biglm ma możliwość aktualizacji podczas dodawania obserwacji, ale moje dane są na tyle małe, że mieszczą się w pamięci (chociaż mam wiele instancji do aktualizacji). Istnieją sposoby, aby to zrobić gołymi rękami, np. W celu …

15 r regression computational-statistics linear-model

Pytania otagowane jako computational-statistics