Statystyki i duże zbiory danych mathematical-statistics

1

Zrozumienie zastosowania logarytmów w logarytmie TF-IDF

Czytałem: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Ale nie potrafię zrozumieć, dlaczego formuła została zbudowana w taki sposób. Co robię Rozumiem: iDF powinien na pewnym poziomie zmierzyć, jak często termin S pojawia się w każdym z dokumentów, zmniejszając jego wartość, ponieważ termin pojawia się częściej. Z tej perspektywy iDF(S)=# of Documents# of Documents containing SiDF(S)=# …

10 machine-learning clustering mathematical-statistics text-mining natural-language

1

Wyjaśnienie w geometrii informacji

To pytanie dotyczy artykułu Różnicowa geometria zakrzywionych rodzin wykładniczych-krzywizny i utraty informacji autorstwa Amari. Tekst wygląda następująco. Niech będzie wymiarowym kolektorem rozkładów prawdopodobieństwa z układem współrzędnych , gdzie zakłada się ...n θ = ( θ 1 , … , θ n ) p θ ( x ) > 0Sn={pθ}Sn={pθ}S^n=\{p_{\theta}\}nnnθ=(θ1,…,θn)θ=(θ1,…,θn)\theta=(\theta_1,\dots,\theta_n)pθ(x)>0pθ(x)>0p_{\theta}(x)>0 Możemy …

10 mathematical-statistics statistical-learning geometry information-geometry

2

Co się stanie w teście t dla jednej próbki, jeśli w estymatorze wariancji średnia próbki zostanie zastąpiona przez

Załóżmy test t dla jednej próbki, w którym hipoteza zerowa wynosi μ = μ0μ=μ0\mu=\mu_0 . Statystyka wynosi wtedy t = x¯¯¯-μ0s / n√t=x¯-μ0s/nt=\frac{\overline{x}-\mu_0}{s/\sqrt{n}} używając przykładowego odchylenia standardowegosss. Przy szacowaniusssporównuje się obserwacje ze średnią próbkix¯¯¯x¯\overline{x}: .s = 1n - 1∑ni = 1( xja- x¯¯¯)2)---------------√s=1n-1∑ja=1n(xja-x¯)2)s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2} Jeśli jednak założymy, że dane jest …

10 mathematical-statistics variance t-test

2

Oczekiwana wartość losowej zmiennej Gaussa przekształconej funkcją logistyczną

Zarówno funkcja logistyczna, jak i odchylenie standardowe są zwykle oznaczane . Będziemy używać i y dla standardowego odchylenia.σ ( x ) = 1 / ( 1 + exp ( - x ) ) sσσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss Mam logistycznego neuron z wejściem losowej którego średnia μμ\mu i odchylenie standardowe sss wiem. …

10 distributions normal-distribution neural-networks mathematical-statistics expected-value

1

Czy regresje z błędami ucznia są bezużyteczne?

Proszę zobaczyć edycję. Gdy masz dane z dużymi ogonami, regresja z błędami uczniów wydaje się intuicyjna. Badając tę możliwość, natknąłem się na ten artykuł: Breusch, TS, Robertson, JC i Welsh, AH (01 listopada 1997). Nowe szaty cesarza: krytyka modelu regresji wielowymiarowej. Statistica Neerlandica, 51, 3.) ( link , pdf ) …

10 regression mathematical-statistics modeling robust

2

Testowanie hipotez i całkowity dystans wariancji vs. dywergencja Kullbacka-Leiblera

W moich badaniach natrafiłem na następujący ogólny problem: mam dwie rozkłady i w tej samej domenie i dużą (ale skończoną) liczbę próbek z tych rozkładów. Próbki są niezależnie i identycznie rozmieszczone z jednego z tych dwóch rozkładów (chociaż rozkłady mogą być powiązane: na przykład Q może być mieszaniną P i …

10 hypothesis-testing mathematical-statistics kullback-leibler information-theory bounds

4

Duży obraz analizy przeżycia i analizy danych o życiu

Słyszałem o analizie przeżycia i analizie danych z życia, ale nie dostaję całościowego obrazu. Zastanawiałem się, jakie tematy obejmują? Czy to czysta statystyka, czy po prostu zastosowanie statystyk w określonym obszarze? Czy analiza daty życia jest częścią analizy przeżycia? Dziękuję i pozdrawiam!

10 survival mathematical-statistics

3

Dystrybucja

Jako rutynowe ćwiczenie próbuję znaleźć rozkład X2)+Y2)-------√X2)+Y2)\sqrt{X^2+Y^2} gdzie XXX i YYY są niezależne U( 0 , 1 )U(0,1) U(0,1) zmienne losowe. Łączna gęstość wynosząca ( X, Y)(X,Y)(X,Y) jest faX, Y( x , y) =10 < x , y< 1faX,Y(x,y)=10<x,y<1f_{X,Y}(x,y)=\mathbf 1_{0\cos^{-1}\left(\frac{1}{z}\right), tak jak cosθcos⁡θ\cos\theta zmniejsza się na θ∈[0,π2]θ∈[0,π2]\theta\in\left[0,\frac{\pi}{2}\right]; izsinθ<1⟹θ<sin−1(1z)zsin⁡θ<1⟹θ<sin−1⁡(1z)z\sin\theta<1\implies\theta<\sin^{-1}\left(\frac{1}{z}\right), tak jak …

10 self-study distributions mathematical-statistics uniform

1

Dowód twierdzenia Pitmana – Koopmana – Darmois

Gdzie mogę znaleźć dowód twierdzenia Pitmana – Koopmana – Darmois? Od dłuższego czasu korzystam z Google. Co dziwne, wiele notatek wspomina o tym twierdzeniu, ale żadna z nich nie przedstawia dowodu.

10 mathematical-statistics references inference sufficient-statistics

1

Jak narysować dopasowany wykres i rzeczywisty wykres rozkładu gamma na jednym wykresie?

Załaduj potrzebny pakiet. library(ggplot2) library(MASS) Wygeneruj 10 000 liczb dopasowanych do rozkładu gamma. x <- round(rgamma(100000,shape = 2,rate = 0.2),1) x <- x[which(x>0)] Narysuj funkcję gęstości prawdopodobieństwa, zakładając, że nie wiemy, do którego rozkładu x pasuje. t1 <- as.data.frame(table(x)) names(t1) <- c("x","y") t1 <- transform(t1,x=as.numeric(as.character(x))) t1$y <- t1$y/sum(t1[,2]) ggplot() + …

10 r mathematical-statistics goodness-of-fit gamma-distribution ggplot2

4

Model historii zdarzeń dyskretnych (przeżycie) w R.

Próbuję dopasować model czasu dyskretnego do R, ale nie jestem pewien, jak to zrobić. Czytałem, że możesz zorganizować zmienną zależną w różnych wierszach, po jednym dla każdej obserwacji czasu, i użyć glmfunkcji z łączem logit lub cloglog. W tym sensie, mam trzy kolumny: ID, Event(1 lub 0, w każdym okresie …

10 r survival pca sas matlab neural-networks r logistic spatial spatial-interaction-model r time-series econometrics var statistical-significance t-test cross-validation sample-size r regression optimization least-squares constrained-regression nonparametric ordinal-data wilcoxon-signed-rank references neural-networks jags bugs hierarchical-bayesian gaussian-mixture r regression svm predictive-models libsvm scikit-learn probability self-study stata sample-size spss wilcoxon-mann-whitney survey ordinal-data likert group-differences r regression anova mathematical-statistics normal-distribution random-generation truncation repeated-measures variance variability distributions random-generation uniform regression r generalized-linear-model goodness-of-fit data-visualization r time-series arima autoregressive confidence-interval r time-series arima autocorrelation seasonality hypothesis-testing bayesian frequentist uninformative-prior correlation matlab cross-correlation

1

Pytanie o przykładową funkcję autokowariancji

Czytam książkę do analizy szeregów czasowych, a wzór na próbkę autokowariancji jest zdefiniowany w książce jako: γˆ(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)γ^(h)=n−1∑t=1n−h(xt+h−x¯)(xt−x¯)\widehat{\gamma}(h) = n^{-1}\displaystyle\sum_{t=1}^{n-h}(x_{t+h}-\bar{x})(x_t-\bar{x}) withdla . \ bar {x} to średnia.γˆ(−h)=γˆ(h)γ^(−h)=γ^(h)\widehat{\gamma}(-h) = \widehat{\gamma}(h)\;h=0,1,...,n−1h=0,1,...,n−1\;h = 0,1, ..., n-1x¯x¯\bar{x} Czy ktoś może wyjaśnić intuicyjnie, dlaczego dzielimy sumę przez nnn a nie przez n−hn−hn-h ? Książka wyjaśnia, że …

10 time-series probability mathematical-statistics

1

R regresja liniowa zmienna kategorialna „ukryta” wartość

To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

Udowodnienie sekwencji zmniejsza się (obsługiwane przez wykreślenie dużej liczby punktów)

Wiele pytań, które opublikowałem na SE w ostatnim miesiącu, miało na celu pomóc mi rozwiązać ten konkretny problem. Na wszystkie pytania udzielono odpowiedzi, ale wciąż nie mogę znaleźć rozwiązania. Pomyślałem więc, że powinienem po prostu zapytać o problem, który próbuję rozwiązać bezpośrednio. Niech , gdzie , , (liczba całkowita), a …

10 distributions mathematical-statistics probability function

1

Ogranicza różnicę skorelowanych zmiennych losowych

Biorąc pod uwagę dwie wysoce skorelowane zmienne losowe XXX i YYY, Chciałbym ograniczyć prawdopodobieństwo różnicy |X−Y||X−Y| |X - Y| przekracza pewną kwotę: P(|X−Y|>K)<δP(|X−Y|>K)<δ P( |X - Y| > K) < \delta Załóż dla uproszczenia, że: Współczynnik korelacji jest znany jako „wysoki”, powiedzmy: ρX,Y=covar(X,Y)/σXσY≥1−ϵρX,Y=covar(X,Y)/σXσY≥1−ϵ \rho_{X,Y}= {covar(X,Y)} / {\sigma_X \sigma_Y} \geq 1 …

9 correlation mathematical-statistics bounds

Pytania otagowane jako mathematical-statistics