Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

4
Biorąc pod uwagę oczekiwania związane z serią Taylor (szczególnie pozostała część)
Moje pytanie dotyczy próby uzasadnienia powszechnie stosowanej metody, a mianowicie przyjęcia oczekiwanej wartości Taylor Series. Załóżmy, że mamy losową zmienną o dodatniej średniej i wariancji . Dodatkowo mamy funkcję, powiedzmy, .XXXμμ\muσ2σ2\sigma^2log(x)log⁡(x)\log(x) Po rozszerzeniu Taylora o średnio otrzymujemy gdzie, jak zwykle, to st.logXlog⁡X\log XlogX=logμ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξ3X,log⁡X=log⁡μ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξX3, \log X = \log\mu + \frac{X - …


3
Jaka jest funkcja celu PCA?
Analiza głównych składników może wykorzystywać rozkład macierzy, ale to tylko narzędzie, aby się tam dostać. Jak znalazłbyś główne składniki bez użycia algebry macierzowej? Jaka jest funkcja celu (cel) i jakie są ograniczenia?
42 pca 

5
Czy uczenie maszynowe jest mniej przydatne do zrozumienia związku przyczynowego, a tym samym mniej interesujące dla nauk społecznych?
Rozumiem różnicę między uczeniem maszynowym / innymi statystycznymi technikami predykcyjnymi a rodzajem statystyk, które stosują naukowcy społeczni (np. Ekonomiści), że ekonomiści wydają się bardzo zainteresowani zrozumieniem efektu jednej lub kilku zmiennych - zarówno pod względem wielkość i wykrywanie, czy związek jest przyczynowy. W tym celu zajmujesz się metodami eksperymentalnymi i …

5
Jakie jest znaczenie współczynników regresji logistycznej?
Obecnie czytam artykuł na temat miejsca głosowania i preferencji głosowania w wyborach w 2000 i 2004 roku. Na nim znajduje się wykres przedstawiający współczynniki regresji logistycznej. Z kursów sprzed lat i trochę czytania, Rozumiem regresję logistyczną jako sposób opisania związku między wieloma zmiennymi niezależnymi a zmienną odpowiedzi binarnej. Mylę się, …

8
Jak przeprowadzić wykrywanie społeczności w ważonej sieci / wykresie społecznościowym?
Zastanawiam się, czy ktoś mógłby zasugerować, jakie są dobre punkty wyjścia, jeśli chodzi o wykrywanie społeczności / partycjonowanie / grupowanie wykresów na wykresie z ważonymi , nieukierunkowanymi krawędziami. Wykres ma około 3 miliony krawędzi, a każda krawędź wyraża stopień podobieństwa między dwoma połączonymi wierzchołkami. W szczególności w tym zbiorze danych …

5
Jak unieruchomić szereg czasowy?
Oprócz różnic, jakie są inne techniki tworzenia niestacjonarnych szeregów czasowych, stacjonarnych? Zwykle jeden odnosi się do szeregu jako „ zintegrowany rzędu p ”, jeśli można go unieruchomić za pomocą operatora opóźnienia .( 1 - L )P.Xt(1−L)PXt(1-L)^P X_t


8
Jak sprawić, by ludzie lepiej dbali o dane?
Moje miejsce pracy ma pracowników z bardzo różnych dziedzin, więc generujemy dane w wielu różnych formach. W związku z tym każdy zespół opracował własny system przechowywania danych. Niektórzy korzystają z baz danych Access lub SQL; niektóre zespoły (ku mojemu przerażeniu) polegają prawie całkowicie na arkuszach kalkulacyjnych Excel. Często formaty danych …


6
Dlaczego próbkowanie w dół?
Załóżmy, że chcę nauczyć się klasyfikatora, który przewiduje, czy wiadomość e-mail jest spamem. Załóżmy, że tylko 1% wiadomości e-mail to spam. Najłatwiej jest nauczyć się trywialnego klasyfikatora, który mówi, że żaden z e-maili nie jest spamem. Ten klasyfikator dałby nam 99% dokładności, ale nie nauczyłby się niczego ciekawego i miałby …


2
Różne sposoby pisania warunków interakcji w lm?
Mam pytanie, w jaki sposób najlepiej określić interakcję w modelu regresji. Rozważ następujące dane: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, …

5
Korelacje między zmiennymi ciągłymi a jakościowymi (nominalnymi)
Chciałbym znaleźć korelację między zmienną ciągłą (zmienną zależną) a zmienną kategorialną (nominalna: płeć, zmienna niezależna). Dane ciągłe nie są zwykle dystrybuowane. Przedtem miałem obliczony go używając Spearmana . Powiedziano mi jednak, że to nie w porządku.ρρ\rho Podczas wyszukiwania w Internecie odkryłem, że wykres pudełkowy może dać wyobrażenie o tym, jak …

5
Jak interpretować wagi funkcji SVM?
Próbuję zinterpretować zmienne wagi podane przez dopasowanie liniowego SVM. (Używam scikit-learn ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ Nie mogę znaleźć w dokumentacji niczego, co wyraźnie określa sposób obliczania lub interpretowania tych wag. Czy znak wagi ma coś wspólnego z klasą?

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.