Statystyki i duże zbiory danych

16

Czy testowanie normalności jest „zasadniczo bezużyteczne”?

Były kolega kiedyś mi powiedział, co następuje: Zwykle stosujemy testy normalności do wyników procesów, które pod zerą generują zmienne losowe, które są tylko asymptotycznie lub prawie normalne (z częścią „asymptotycznie” zależną od pewnej wielkości, której nie możemy uczynić dużą); W dobie taniej pamięci, dużych zbiorów danych i szybkich procesorów testy …

298 hypothesis-testing normality-assumption philosophical

7

Kiedy przeprowadzając regresję wielokrotną, należy wyśrodkować zmienne predykcyjne i kiedy je znormalizować?

W niektórych literaturach czytałem, że regresja z wieloma zmiennymi objaśniającymi, jeśli jest w różnych jednostkach, wymaga standaryzacji. (Standaryzacja polega na odjęciu średniej i podzieleniu przez odchylenie standardowe). W jakich innych przypadkach muszę standaryzować swoje dane? Czy istnieją przypadki, w których powinienem jedynie wyśrodkowywać moje dane (tj. Bez dzielenia przez odchylenie …

281 multiple-regression standardization centering

9

Jaka jest różnica między modelami z efektem stałym, losowym i mieszanym?

Mówiąc prościej, jak wyjaśniłbyś (być może za pomocą prostych przykładów) różnicę między modelami efektu stałego, efektu losowego i efektu mieszanego?

266 mixed-model random-effects-model definition fixed-effects-model

6

Jak znormalizować dane do zakresu 0-1?

Jestem zagubiony w normalizacji, czy ktoś mógłby mnie poprowadzić, proszę. Mam wartości minimalne i maksymalne, powiedzmy odpowiednio -23,89 i 7,54990767. Jeśli otrzymam wartość 5,6878, jak mogę skalować tę wartość w skali od 0 do 1.

265 normalization

11

Jak rozumieć stopnie swobody?

Z Wikipedii istnieją trzy interpretacje stopni swobody statystyki: W statystykach liczba stopni swobody to liczba wartości w końcowym obliczeniu statystyki, które mogą się zmieniać . Szacunki parametrów statystycznych mogą opierać się na różnych ilościach informacji lub danych. Liczba niezależnych informacji, które wchodzą w oszacowanie parametru, nazywa się stopniami swobody (df). …

257 interpretation degrees-of-freedom intuition

30

Słynne cytaty statystyczne

Jaki jest twój ulubiony cytat statystyczny? To jest wiki społeczności, więc proszę o jeden cytat na odpowiedź.

248 references history

16

Jakie jest znaczenie wartości p it wartości w testach statystycznych?

Po przejściu kursu statystycznego, a następnie próbie pomocy innym studentom, zauważyłem, że jednym z tematów, który inspiruje wiele uderzeń w głowę, jest interpretacja wyników testów hipotez statystycznych. Wygląda na to, że uczniowie łatwo uczą się wykonywania obliczeń wymaganych przez dany test, ale odkładają słuchawkę na temat interpretacji wyników. Wiele skomputeryzowanych …

246 hypothesis-testing p-value interpretation intuition canonical-question

7

Pakowanie, ulepszanie i układanie w stosy w uczeniu maszynowym

Jakie są podobieństwa i różnice między tymi 3 metodami: Parcianka, Wzmocnienie, Układanie? Który jest najlepszy? I dlaczego? Czy możesz podać mi przykład dla każdego z nich?

245 machine-learning boosting ensemble bagging model-averaging

11

Jak wyjaśniłbyś laikowi Markov Chain Monte Carlo (MCMC)?

Może koncepcja, dlaczego jest używana i przykład.

240 bayesian mcmc intuition teaching

8

Dlaczego odległość euklidesowa nie jest dobrym miernikiem w dużych wymiarach?

Czytałem, że „odległość euklidesowa nie jest dobrą odległością w dużych wymiarach”. Myślę, że to stwierdzenie ma coś wspólnego z przekleństwem wymiarowości, ale co dokładnie? Poza tym, co to są „wysokie wymiary”? Stosuję hierarchiczne grupowanie przy użyciu odległości euklidesowej ze 100 funkcjami. Do ilu funkcji można bezpiecznie korzystać z tych danych?

239 machine-learning clustering distance-functions metric high-dimensional

2

Interpretacja wyniku Rm lm ()

Strony pomocy w R zakładają, że wiem, co oznaczają te liczby, ale nie wiem. Staram się naprawdę intuicyjnie zrozumieć każdą liczbę tutaj. Po prostu opublikuję wynik i skomentuję to, czego się dowiedziałem. Mogą (będą) występować błędy, ponieważ napiszę tylko to, co zakładam. Przede wszystkim chciałbym wiedzieć, co oznacza wartość t …

234 r regression interpretation

6

Czy użyteczny czy niebezpieczny?

Przeglądałem notatki z wykładu Cosmy Shalizi (w szczególności rozdział 2.1.1 drugiego wykładu ) i przypomniano mi, że możesz uzyskać bardzo niskie nawet jeśli masz całkowicie liniowy model.R2R2R^2 Parafrazując przykład Shaliziego: załóżmy, że masz model , gdzie znany jest . Następnie \ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] …

233 regression r-squared

9

Jaka jest różnica między przedziałem ufności a przedziałem wiarygodności?

Joris i Srikant za wymianę tutaj got me zastanawiasz się (ponownie), czy moje wewnętrzne wyjaśnienia dotyczące różnicy pomiędzy przedziałami ufności i wiarygodnych odstępach były właociwe. Jak wytłumaczysz różnicę?

229 bayesian confidence-interval frequentist credible-interval fiducial

5

Co oznacza AUC i co to jest?

Przeszukano wysokie i niskie i nie byłem w stanie dowiedzieć się, co AUC, podobnie jak w przypadku prognozowania, oznacza lub oznacza.

228 classification prediction roc auc abbreviation

12

Dlaczego 95% przedział ufności (CI) nie oznacza 95% szansy na zawarcie średniej?

Wydaje się, że poprzez różne powiązane pytania tutaj istnieje zgoda, że „95%” części tego, co nazywamy „95% przedziałem ufności”, odnosi się do faktu, że jeśli mielibyśmy dokładnie odtworzyć nasze procedury próbkowania i obliczeń CI wiele razy , 95% tak obliczonych CI zawierałoby średnią populacji. Wydaje się również, że zgoda ta …

228 probability confidence-interval sampling mean population