Statystyki i duże zbiory danych

9

Podręcznik do algebry liniowej zastosowanej do statystyki?

Pracowałem trochę w R i miałem do czynienia z takimi rzeczami, jak PCA, SVD, rozkład QR i wiele innych wyników algebry liniowej (podczas sprawdzania szacowania ważonych regresji itp.), Więc chciałem wiedzieć, czy ktoś ma zalecenie dotyczące dobrego obszerna książka o algebrze liniowej, która nie jest zbyt teoretyczna, ale jest matematycznie …

54 references matrix linear-algebra weighted-regression

8

Czy pobieranie próbek ma znaczenie w czasach „dużych zbiorów danych”?

Lub bardziej „czy to będzie”? Big Data sprawia, że statystyki i odpowiednia wiedza stają się tym ważniejsze, ale wydaje się, że nie uwzględniają teorii próbkowania. Widziałem ten szum wokół „Big Data” i nie mogę się dziwić, że „dlaczego” chciałbym wszystko analizować ? Czy nie było powodu, aby „teorię próbkowania” zaprojektować …

54 sampling data-mining large-data

5

Centralne twierdzenie graniczne dla przykładowych median

Jeśli obliczę medianę wystarczająco dużej liczby obserwacji pochodzących z tego samego rozkładu, to czy centralne twierdzenie graniczne stwierdza, że rozkład median będzie zbliżony do rozkładu normalnego? Rozumiem, że dotyczy to dużej liczby próbek, ale czy dotyczy to również median? Jeśli nie, jaki jest podstawowy rozkład przykładowych median?

54 normal-distribution mathematical-statistics sampling median central-limit-theorem

10

Jak zdecydować o właściwej liczbie klastrów?

Znajdujemy centra klastrów i przypisujemy punkty do k różnych pojemników klastra w klastrowaniu k-średnich, który jest bardzo dobrze znanym algorytmem i znajduje się prawie w każdym pakiecie uczenia maszynowego w sieci. Ale brakującą i najważniejszą częścią moim zdaniem jest wybór poprawnego k. Jaka jest jego najlepsza wartość? Co rozumiemy przez …

54 clustering k-means

2

Czy potrzebujemy globalnego testu przed testami post hoc?

Często słyszę, że testy post hoc po ANOVA można stosować tylko wtedy, gdy sama ANOVA była znacząca. Jednak testy post hoc dostosowują wartości aby utrzymać globalny poziom błędu typu I na poziomie 5%, prawda?ppp Dlaczego więc najpierw potrzebujemy globalnego testu? Jeśli nie potrzebujemy globalnego testu, czy terminologia „post hoc” jest …

54 anova statistical-significance post-hoc

3

Odchylenie standardowe odchylenia standardowego

Jaki jest estymator odchylenia standardowego odchylenia standardowego, jeśli można założyć normalność danych?

54 estimation standard-deviation normality-assumption

5

Czy dostosowanie wartości p w regresji wielokrotnej w celu wielokrotnych porównań jest dobrym pomysłem?

Załóżmy, że jesteś badaczem nauk społecznych / ekonometrycznym próbującym znaleźć odpowiednie predyktory zapotrzebowania na usługę. Masz 2 zmienne wynikowe / zależne opisujące zapotrzebowanie (za pomocą usługi tak / nie i liczby okazji). Masz 10 zmiennych predykcyjnych / niezależnych, które mogłyby teoretycznie wyjaśnić popyt (np. Wiek, płeć, dochód, cena, rasę itp.). …

54 regression multivariate-analysis predictive-models multiple-regression multiple-comparisons

7

Najlepszy algorytm PCA dla ogromnej liczby funkcji (> 10 KB)?

Wcześniej zapytałem o to na StackOverflow, ale wydaje się, że może być bardziej odpowiednie tutaj, biorąc pod uwagę, że nie otrzymało żadnych odpowiedzi na SO. To trochę na styku statystyki i programowania. Muszę napisać kod, aby wykonać PCA (Principal Component Analysis). Przejrzałem dobrze znane algorytmy i zaimplementowałem ten , który, …

54 pca algorithms model-evaluation high-dimensional

19

Filmy ze statystykami matematycznymi

Wcześniej pytano o zalecenia dotyczące podręczników statystyki matematycznej Czy ktoś zna jakieś dobre wykłady wideo online na temat statystyki matematycznej ? Najbliższe, które znalazłem to: Nauczanie maszynowe Ekonometria AKTUALIZACJA: Niektóre z wymienionych poniżej sugestii to dobre filmy wideo typu 101. Zastanawiam się jednak, czy są jakieś filmy wideo, które zapewniają …

54 mathematical-statistics references

6

Wprowadzenie do statystyki dla matematyków

Jakie jest dobre wprowadzenie do statystyki dla matematyka, który jest już dobrze zorientowany w prawdopodobieństwie? Mam dwie wyraźne motywacje, by zapytać, co może prowadzić do różnych sugestii: Chciałbym lepiej zrozumieć motywację statystyczną stojącą za wieloma problemami rozważanymi przez probabilistów. Chciałbym wiedzieć, jak lepiej interpretować wyniki symulacji Monte Carlo, które czasami …

54 references

3

Wielowymiarowa regresja liniowa a sieć neuronowa?

Wydaje się, że w niektórych przypadkach można uzyskać podobne wyniki do sieci neuronowej z wielowymiarową regresją liniową, a wielowymiarowa regresja liniowa jest bardzo szybka i łatwa. W jakich okolicznościach sieci neuronowe mogą dawać lepsze wyniki niż wielowymiarowa regresja liniowa?

54 regression multiple-regression neural-networks

5

Jakie jest intuicyjne wyjaśnienie, w jaki sposób PCA zmienia się z problemu geometrycznego (z odległościami) w problem algebry liniowej (z wektorami własnymi)?

Dużo czytałem o PCA, w tym różne tutoriale i pytania (takie jak ten , ten , ten i ten ). Geometryczny problem, który PCA próbuje zoptymalizować, jest dla mnie jasny: PCA próbuje znaleźć pierwszy główny składnik, minimalizując błąd rekonstrukcji (projekcji), który jednocześnie maksymalizuje wariancję rzutowanych danych. Kiedy po raz pierwszy …

54 pca optimization linear-algebra intuition

10

Walidacja wstrzymania a walidacja krzyżowa

Wydaje mi się, że walidacja wstrzymania jest bezużyteczna. Oznacza to, że podzielenie oryginalnego zestawu danych na dwie części (szkolenie i testowanie) i wykorzystanie wyniku testu jako miary uogólnienia jest nieco bezużyteczne. Walidacja krzyżowa K-fold wydaje się dawać lepsze przybliżenia uogólnienia (ponieważ trenuje i testuje w każdym punkcie). Dlaczego więc mielibyśmy …

54 machine-learning cross-validation validation

4

Kowariancja i niezależność?

Z podręcznika przeczytałem, że nie gwarantuje, że X i Y są niezależne. Ale jeśli są niezależni, ich kowariancja musi wynosić 0. Nie potrafiłem jeszcze wymyślić żadnego właściwego przykładu; czy ktoś mógłby to zapewnić?cov(X,Y)=0cov(X,Y)=0\text{cov}(X,Y)=0

54 independence covariance

5

Na temat znaczenia założenia iid w uczeniu statystycznym

W uczeniu statystycznym, w sposób dorozumiany lub jawny, zawsze zakłada się, że zestaw treningowy D={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \} składa się z NNN krotek wejściowych / odpowiedzi (Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) które są niezależne od tego samego rozkładu połączeń P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) z p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) oraz p(y|X)p(y|X)p( …

54 machine-learning cross-validation non-independent iid