Statystyki i duże zbiory danych python

2

W jaki sposób Tensorflow `tf.train.Optimizer` oblicza gradienty?

Postępuję zgodnie z samouczkiem mens Tensorflow ( https://github.com/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/mnist/mnist_softmax.py ). Samouczek używa tf.train.Optimizer.minimize(konkretnie tf.train.GradientDescentOptimizer). Nigdzie nie widzę żadnych argumentów do zdefiniowania gradientów. Czy przepływ Tensor jest domyślnie domyślnie różnicowany numerycznie? Czy istnieje sposób, aby przejść w gradienty, jak można z scipy.optimize.minimize?

10 python optimization tensorflow

1

Losowa prognoza probabilistyczna lasu a głosowanie większościowe

Wydaje się, że scikit uczy się przewidywania probabilistycznego zamiast głosowania większością za techniką agregacji modelu bez wyjaśnienia, dlaczego (1.9.2.1. Losowe lasy). Czy istnieje jasne wyjaśnienie, dlaczego? Czy jest też dobry artykuł lub artykuł przeglądowy na temat różnych technik agregacji modeli, które można zastosować do tworzenia worków w Losowym lesie? Dzięki!

10 random-forest python scikit-learn aggregation bagging

1

Odchylenie standardowe średniej ważonej wykładniczo

Napisałem prostą funkcję w Pythonie, aby obliczyć wykładniczo ważoną średnią: def test(): x = [1,2,3,4,5] alpha = 0.98 s_old = x[0] for i in range(1, len(x)): s = alpha * x[i] + (1- alpha) * s_old s_old = s return s Jak jednak obliczyć odpowiednią SD?

10 standard-deviation python exponential-smoothing

2

PyMC dla grupowania nieparametrycznego: proces Dirichleta do oszacowania parametrów mieszanki Gaussa nie ulega zgrupowaniu

Konfiguracja problemu Jednym z pierwszych problemów z zabawkami, do których chciałem zastosować PyMC, jest grupowanie nieparametryczne: biorąc pod uwagę pewne dane, zamodeluj je jako mieszaninę Gaussa i poznaj liczbę skupień oraz średnią i kowariancję każdego skupienia. Większość tego, co wiem o tej metodzie, pochodzi z wykładów wideo Michaela Jordana i …

10 bayesian clustering python pymc nonparametric-bayes

1

Jak włączyć innowacyjną wartość odstającą przy obserwacji 48 w moim modelu ARIMA?

Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1). Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych. Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

1

Jak obliczyć wzajemne informacje?

Jestem trochę zmieszany. Czy ktoś może mi wyjaśnić, jak obliczyć wzajemne informacje między dwoma terminami w oparciu o matrycę termin-dokument z występowaniem terminów binarnych jako wag? Document1Document2Document3′Why′111′How′101′When′111′Wh e re′100′W.hy′′H.ow′′W.hmin′′W.hmirmi′reodoummint11111reodoummint2)1010reodoummint3)1110 \begin{matrix} & 'Why' & 'How' & 'When' & 'Where' \\ Document1 & 1 & 1 & 1 & 1 \\ Document2 …

10 python information-theory mutual-information numpy pandas

2

Model dopasowania dla dwóch normalnych rozkładów w PyMC

Ponieważ jestem inżynierem oprogramowania i próbuję dowiedzieć się więcej statystyk, musisz mi wybaczyć, zanim zacznę, dlatego jest to poważna nowość ... Uczę się PyMC i pracuję nad kilkoma naprawdę (naprawdę) prostymi przykładami. Jednym z problemów, których nie mogę zabrać do pracy (i nie mogę znaleźć żadnych powiązanych przykładów), jest dopasowanie …

10 modeling python pymc

2

Jak generować liczby zgodnie z rozkładem Soliton?

Rozkład Solitona jest dyskretnym rozkładem prawdopodobieństwa w zbiorze z funkcją masy prawdopodobieństwa{ 1 , … , N}{1,…,N.}\{1,\dots, N\} p ( 1 ) = 1N.,p ( k ) = 1k ( k - 1 )dla k ∈ { 2 , … , N}p(1)=1N.,p(k)=1k(k-1)dla k∈{2),…,N.} p(1)=\frac{1}{N},\qquad p(k)=\frac{1}{k(k-1)}\quad\text{for }k\in\{2,\dots, N\} Chciałbym go użyć …

10 distributions python

4

Dopasowanie rozkładu log-normalnego w R vs. SciPy

Dopasowałem logarytmiczny model za pomocą R z zestawem danych. Wynikowymi parametrami były: meanlog = 4.2991610 sdlog = 0.5511349 Chciałbym przenieść ten model do Scipy, z którego nigdy wcześniej nie korzystałem. Korzystając z Scipy, udało mi się uzyskać kształt i skalę 1 oraz 3.1626716539637488e + 90 - bardzo różne liczby. Próbowałem …

10 r python numpy scipy

3

Jaki jest najbardziej efektywny sposób szkolenia danych przy użyciu najmniejszej ilości pamięci?

Oto moje dane treningowe: 200 000 przykładów x 10 000 funkcji. Zatem moja macierz danych treningowych wynosi - 200 000 x 10 000. Udało mi się zapisać to w płaskim pliku bez problemów z pamięcią, zapisując każdy zestaw danych jeden po drugim (jeden przykład po drugim) podczas generowania funkcji dla …

10 machine-learning dataset algorithms python

1

t-SNE z mieszanymi zmiennymi ciągłymi i binarnymi

Obecnie badam wizualizację danych wielowymiarowych za pomocą t-SNE. Mam pewne dane z mieszanymi zmiennymi binarnymi i ciągłymi, a dane wydają się zbyt łatwo grupować dane binarne. Oczywiście jest to oczekiwane w przypadku danych skalowanych (od 0 do 1): odległość euklidesowa zawsze będzie największa / najmniejsza między zmiennymi binarnymi. Jak należy …

10 python dimensionality-reduction unsupervised-learning tsne mixed-type-data

4

Jak statystycznie udowodnić, czy kolumna zawiera dane kategoryczne, czy też nie używa Pythona

Mam ramkę danych w pythonie, w której muszę znaleźć wszystkie zmienne jakościowe. Sprawdzanie typu kolumny nie zawsze działa, ponieważ inttyp może być również kategoryczny. Dlatego szukam pomocy w znalezieniu właściwej metody testowania hipotez, aby ustalić, czy kolumna jest kategoryczna, czy nie. Próbowałem poniżej testu chi-kwadrat, ale nie jestem pewien, czy …

10 hypothesis-testing categorical-data python chi-squared categorical-encoding

2

Skorygowany wskaźnik Rand a skorygowane informacje wzajemne

Usiłuję ocenić wydajność klastrowania. Czytałem dokumentację skiscit-learn dotyczącą metryk . Nie rozumiem różnicy między ARI a AMI. Wydaje mi się, że robią to samo na dwa różne sposoby. Cytowanie z dokumentacji: Biorąc pod uwagę znajomość podstawowych przypisań do klasy prawdy label_true i nasz algorytm grupowania tych samych próbek label_pred, skorygowany …

10 clustering python scikit-learn

4

Najlepszy sposób na wysianie N niezależnych generatorów liczb losowych od 1 wartości

W moim programie muszę uruchomić N osobnych wątków, każdy z własnym RNG, który służy do próbkowania dużego zestawu danych. Muszę być w stanie zaszczepić cały ten proces jedną wartością, aby móc odtwarzać wyniki. Czy wystarczy po prostu sekwencyjnie zwiększać ziarno dla każdego indeksu? Obecnie używam numpytych, RandomStatektóre korzystają z generatora …

10 python monte-carlo random-generation numpy

3

Identyfikacja przefiltrowanych funkcji po wybraniu funkcji za pomocą scikit learn

Oto mój kod metody wyboru funkcji w Pythonie: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Ale po uzyskaniu nowego X (zmienna zależna - X_new), skąd mam wiedzieć, które zmienne …

10 feature-selection python scikit-learn

Pytania otagowane jako python