Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych



5
Centralne twierdzenie graniczne dla przykładowych median
Jeśli obliczę medianę wystarczająco dużej liczby obserwacji pochodzących z tego samego rozkładu, to czy centralne twierdzenie graniczne stwierdza, że ​​rozkład median będzie zbliżony do rozkładu normalnego? Rozumiem, że dotyczy to dużej liczby próbek, ale czy dotyczy to również median? Jeśli nie, jaki jest podstawowy rozkład przykładowych median?

10
Jak zdecydować o właściwej liczbie klastrów?
Znajdujemy centra klastrów i przypisujemy punkty do k różnych pojemników klastra w klastrowaniu k-średnich, który jest bardzo dobrze znanym algorytmem i znajduje się prawie w każdym pakiecie uczenia maszynowego w sieci. Ale brakującą i najważniejszą częścią moim zdaniem jest wybór poprawnego k. Jaka jest jego najlepsza wartość? Co rozumiemy przez …

2
Czy potrzebujemy globalnego testu przed testami post hoc?
Często słyszę, że testy post hoc po ANOVA można stosować tylko wtedy, gdy sama ANOVA była znacząca. Jednak testy post hoc dostosowują wartości aby utrzymać globalny poziom błędu typu I na poziomie 5%, prawda?ppp Dlaczego więc najpierw potrzebujemy globalnego testu? Jeśli nie potrzebujemy globalnego testu, czy terminologia „post hoc” jest …


5
Czy dostosowanie wartości p w regresji wielokrotnej w celu wielokrotnych porównań jest dobrym pomysłem?
Załóżmy, że jesteś badaczem nauk społecznych / ekonometrycznym próbującym znaleźć odpowiednie predyktory zapotrzebowania na usługę. Masz 2 zmienne wynikowe / zależne opisujące zapotrzebowanie (za pomocą usługi tak / nie i liczby okazji). Masz 10 zmiennych predykcyjnych / niezależnych, które mogłyby teoretycznie wyjaśnić popyt (np. Wiek, płeć, dochód, cena, rasę itp.). …


19
Filmy ze statystykami matematycznymi
Wcześniej pytano o zalecenia dotyczące podręczników statystyki matematycznej Czy ktoś zna jakieś dobre wykłady wideo online na temat statystyki matematycznej ? Najbliższe, które znalazłem to: Nauczanie maszynowe Ekonometria AKTUALIZACJA: Niektóre z wymienionych poniżej sugestii to dobre filmy wideo typu 101. Zastanawiam się jednak, czy są jakieś filmy wideo, które zapewniają …

6
Wprowadzenie do statystyki dla matematyków
Jakie jest dobre wprowadzenie do statystyki dla matematyka, który jest już dobrze zorientowany w prawdopodobieństwie? Mam dwie wyraźne motywacje, by zapytać, co może prowadzić do różnych sugestii: Chciałbym lepiej zrozumieć motywację statystyczną stojącą za wieloma problemami rozważanymi przez probabilistów. Chciałbym wiedzieć, jak lepiej interpretować wyniki symulacji Monte Carlo, które czasami …
54 references 


5
Jakie jest intuicyjne wyjaśnienie, w jaki sposób PCA zmienia się z problemu geometrycznego (z odległościami) w problem algebry liniowej (z wektorami własnymi)?
Dużo czytałem o PCA, w tym różne tutoriale i pytania (takie jak ten , ten , ten i ten ). Geometryczny problem, który PCA próbuje zoptymalizować, jest dla mnie jasny: PCA próbuje znaleźć pierwszy główny składnik, minimalizując błąd rekonstrukcji (projekcji), który jednocześnie maksymalizuje wariancję rzutowanych danych. Kiedy po raz pierwszy …

10
Walidacja wstrzymania a walidacja krzyżowa
Wydaje mi się, że walidacja wstrzymania jest bezużyteczna. Oznacza to, że podzielenie oryginalnego zestawu danych na dwie części (szkolenie i testowanie) i wykorzystanie wyniku testu jako miary uogólnienia jest nieco bezużyteczne. Walidacja krzyżowa K-fold wydaje się dawać lepsze przybliżenia uogólnienia (ponieważ trenuje i testuje w każdym punkcie). Dlaczego więc mielibyśmy …

4
Kowariancja i niezależność?
Z podręcznika przeczytałem, że nie gwarantuje, że X i Y są niezależne. Ale jeśli są niezależni, ich kowariancja musi wynosić 0. Nie potrafiłem jeszcze wymyślić żadnego właściwego przykładu; czy ktoś mógłby to zapewnić?cov(X,Y)=0cov(X,Y)=0\text{cov}(X,Y)=0

5
Na temat znaczenia założenia iid w uczeniu statystycznym
W uczeniu statystycznym, w sposób dorozumiany lub jawny, zawsze zakłada się, że zestaw treningowy D={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \} składa się z NNN krotek wejściowych / odpowiedzi (Xi,yi)(Xi,yi)({\bf{X}}_i,y_i) które są niezależne od tego samego rozkładu połączeń P(X,y)P(X,y)\mathbb{P}({\bf{X}},y) z p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) oraz p(y|X)p(y|X)p( …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.