Statystyki i duże zbiory danych

4

Biorąc pod uwagę oczekiwania związane z serią Taylor (szczególnie pozostała część)

Moje pytanie dotyczy próby uzasadnienia powszechnie stosowanej metody, a mianowicie przyjęcia oczekiwanej wartości Taylor Series. Załóżmy, że mamy losową zmienną o dodatniej średniej i wariancji . Dodatkowo mamy funkcję, powiedzmy, .XXXμμ\muσ2σ2\sigma^2log(x)log⁡(x)\log(x) Po rozszerzeniu Taylora o średnio otrzymujemy gdzie, jak zwykle, to st.logXlog⁡X\log XlogX=logμ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξ3X,log⁡X=log⁡μ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξX3, \log X = \log\mu + \frac{X - …

42 self-study mathematical-statistics expected-value

2

Przedział ufności dla próbkowania Bernoulliego

Mam losową próbkę losowych zmiennych Bernoulliego , gdzie X i oznaczają iidrv, a P ( X i = 1 ) = p , a p jest nieznanym parametrem.X1. . . XN.X1...XNX_1 ... X_NXjaXiX_iP.( Xja= 1 ) = pP(Xi=1)=pP(X_i = 1) = pppp Oczywiście, można znaleźć oszacowanie : p : = …

42 confidence-interval binomial bernoulli-distribution

3

Jaka jest funkcja celu PCA?

Analiza głównych składników może wykorzystywać rozkład macierzy, ale to tylko narzędzie, aby się tam dostać. Jak znalazłbyś główne składniki bez użycia algebry macierzowej? Jaka jest funkcja celu (cel) i jakie są ograniczenia?

42 pca

5

Czy uczenie maszynowe jest mniej przydatne do zrozumienia związku przyczynowego, a tym samym mniej interesujące dla nauk społecznych?

Rozumiem różnicę między uczeniem maszynowym / innymi statystycznymi technikami predykcyjnymi a rodzajem statystyk, które stosują naukowcy społeczni (np. Ekonomiści), że ekonomiści wydają się bardzo zainteresowani zrozumieniem efektu jednej lub kilku zmiennych - zarówno pod względem wielkość i wykrywanie, czy związek jest przyczynowy. W tym celu zajmujesz się metodami eksperymentalnymi i …

42 machine-learning econometrics

5

Jakie jest znaczenie współczynników regresji logistycznej?

Obecnie czytam artykuł na temat miejsca głosowania i preferencji głosowania w wyborach w 2000 i 2004 roku. Na nim znajduje się wykres przedstawiający współczynniki regresji logistycznej. Z kursów sprzed lat i trochę czytania, Rozumiem regresję logistyczną jako sposób opisania związku między wieloma zmiennymi niezależnymi a zmienną odpowiedzi binarnej. Mylę się, …

42 regression logistic interpretation

8

Jak przeprowadzić wykrywanie społeczności w ważonej sieci / wykresie społecznościowym?

Zastanawiam się, czy ktoś mógłby zasugerować, jakie są dobre punkty wyjścia, jeśli chodzi o wykrywanie społeczności / partycjonowanie / grupowanie wykresów na wykresie z ważonymi , nieukierunkowanymi krawędziami. Wykres ma około 3 miliony krawędzi, a każda krawędź wyraża stopień podobieństwa między dwoma połączonymi wierzchołkami. W szczególności w tym zbiorze danych …

42 clustering data-visualization networks partitioning modularity

5

Jak unieruchomić szereg czasowy?

Oprócz różnic, jakie są inne techniki tworzenia niestacjonarnych szeregów czasowych, stacjonarnych? Zwykle jeden odnosi się do szeregu jako „ zintegrowany rzędu p ”, jeśli można go unieruchomić za pomocą operatora opóźnienia .( 1 - L )P.Xt(1−L)PXt(1-L)^P X_t

42 time-series stationarity

5

Pozyskiwanie priorów od ekspertów

Jak powinienem uzyskać wcześniejsze informacje od ekspertów przy dopasowaniu modelu Bayesa?

42 bayesian prior elicitation

8

Jak sprawić, by ludzie lepiej dbali o dane?

Moje miejsce pracy ma pracowników z bardzo różnych dziedzin, więc generujemy dane w wielu różnych formach. W związku z tym każdy zespół opracował własny system przechowywania danych. Niektórzy korzystają z baz danych Access lub SQL; niektóre zespoły (ku mojemu przerażeniu) polegają prawie całkowicie na arkuszach kalkulacyjnych Excel. Często formaty danych …

42 dataset reproducible-research quality-control

6

Jaki algorytm stosuje się w regresji liniowej?

Zwykle słyszę o „zwykłych najmniejszych kwadratach”. Czy to najczęściej stosowany algorytm regresji liniowej? Czy istnieją powody, by użyć innego?

42 regression least-squares algorithms computational-statistics numerics

6

Dlaczego próbkowanie w dół?

Załóżmy, że chcę nauczyć się klasyfikatora, który przewiduje, czy wiadomość e-mail jest spamem. Załóżmy, że tylko 1% wiadomości e-mail to spam. Najłatwiej jest nauczyć się trywialnego klasyfikatora, który mówi, że żaden z e-maili nie jest spamem. Ten klasyfikator dałby nam 99% dokładności, ale nie nauczyłby się niczego ciekawego i miałby …

42 machine-learning classification

3

Czy sensowne jest obliczenie korelacji Pearsona lub Spearmana między dwoma wektorami boolowskimi?

Istnieją dwa wektory logiczne, które zawierają tylko 0 i 1. Jeśli obliczę korelację Pearsona lub Spearmana, czy są one sensowne czy rozsądne?

42 correlation binary-data pearson-r spearman-rho

2

Różne sposoby pisania warunków interakcji w lm?

Mam pytanie, w jaki sposób najlepiej określić interakcję w modelu regresji. Rozważ następujące dane: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, …

42 r regression interaction

5

Korelacje między zmiennymi ciągłymi a jakościowymi (nominalnymi)

Chciałbym znaleźć korelację między zmienną ciągłą (zmienną zależną) a zmienną kategorialną (nominalna: płeć, zmienna niezależna). Dane ciągłe nie są zwykle dystrybuowane. Przedtem miałem obliczony go używając Spearmana . Powiedziano mi jednak, że to nie w porządku.ρρ\rho Podczas wyszukiwania w Internecie odkryłem, że wykres pudełkowy może dać wyobrażenie o tym, jak …

42 correlation categorical-data descriptive-statistics biostatistics spearman-rho

5

Jak interpretować wagi funkcji SVM?

Próbuję zinterpretować zmienne wagi podane przez dopasowanie liniowego SVM. (Używam scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Nie mogę znaleźć w dokumentacji niczego, co wyraźnie określa sposób obliczania lub interpretowania tych wag. Czy znak wagi ma coś wspólnego z klasą?

42 svm feature-selection python scikit-learn