Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

16
Czy testowanie normalności jest „zasadniczo bezużyteczne”?
Były kolega kiedyś mi powiedział, co następuje: Zwykle stosujemy testy normalności do wyników procesów, które pod zerą generują zmienne losowe, które są tylko asymptotycznie lub prawie normalne (z częścią „asymptotycznie” zależną od pewnej wielkości, której nie możemy uczynić dużą); W dobie taniej pamięci, dużych zbiorów danych i szybkich procesorów testy …

7
Kiedy przeprowadzając regresję wielokrotną, należy wyśrodkować zmienne predykcyjne i kiedy je znormalizować?
W niektórych literaturach czytałem, że regresja z wieloma zmiennymi objaśniającymi, jeśli jest w różnych jednostkach, wymaga standaryzacji. (Standaryzacja polega na odjęciu średniej i podzieleniu przez odchylenie standardowe). W jakich innych przypadkach muszę standaryzować swoje dane? Czy istnieją przypadki, w których powinienem jedynie wyśrodkowywać moje dane (tj. Bez dzielenia przez odchylenie …


6
Jak znormalizować dane do zakresu 0-1?
Jestem zagubiony w normalizacji, czy ktoś mógłby mnie poprowadzić, proszę. Mam wartości minimalne i maksymalne, powiedzmy odpowiednio -23,89 i 7,54990767. Jeśli otrzymam wartość 5,6878, jak mogę skalować tę wartość w skali od 0 do 1.

11
Jak rozumieć stopnie swobody?
Z Wikipedii istnieją trzy interpretacje stopni swobody statystyki: W statystykach liczba stopni swobody to liczba wartości w końcowym obliczeniu statystyki, które mogą się zmieniać . Szacunki parametrów statystycznych mogą opierać się na różnych ilościach informacji lub danych. Liczba niezależnych informacji, które wchodzą w oszacowanie parametru, nazywa się stopniami swobody (df). …


16
Jakie jest znaczenie wartości p it wartości w testach statystycznych?
Po przejściu kursu statystycznego, a następnie próbie pomocy innym studentom, zauważyłem, że jednym z tematów, który inspiruje wiele uderzeń w głowę, jest interpretacja wyników testów hipotez statystycznych. Wygląda na to, że uczniowie łatwo uczą się wykonywania obliczeń wymaganych przez dany test, ale odkładają słuchawkę na temat interpretacji wyników. Wiele skomputeryzowanych …



8
Dlaczego odległość euklidesowa nie jest dobrym miernikiem w dużych wymiarach?
Czytałem, że „odległość euklidesowa nie jest dobrą odległością w dużych wymiarach”. Myślę, że to stwierdzenie ma coś wspólnego z przekleństwem wymiarowości, ale co dokładnie? Poza tym, co to są „wysokie wymiary”? Stosuję hierarchiczne grupowanie przy użyciu odległości euklidesowej ze 100 funkcjami. Do ilu funkcji można bezpiecznie korzystać z tych danych?

2
Interpretacja wyniku Rm lm ()
Strony pomocy w R zakładają, że wiem, co oznaczają te liczby, ale nie wiem. Staram się naprawdę intuicyjnie zrozumieć każdą liczbę tutaj. Po prostu opublikuję wynik i skomentuję to, czego się dowiedziałem. Mogą (będą) występować błędy, ponieważ napiszę tylko to, co zakładam. Przede wszystkim chciałbym wiedzieć, co oznacza wartość t …

6
Czy użyteczny czy niebezpieczny?
Przeglądałem notatki z wykładu Cosmy Shalizi (w szczególności rozdział 2.1.1 drugiego wykładu ) i przypomniano mi, że możesz uzyskać bardzo niskie nawet jeśli masz całkowicie liniowy model.R2R2R^2 Parafrazując przykład Shaliziego: załóżmy, że masz model , gdzie znany jest . Następnie \ newcommand {\ Var} {\ mathrm {Var}} \ Var [Y] …



12
Dlaczego 95% przedział ufności (CI) nie oznacza 95% szansy na zawarcie średniej?
Wydaje się, że poprzez różne powiązane pytania tutaj istnieje zgoda, że ​​„95%” części tego, co nazywamy „95% przedziałem ufności”, odnosi się do faktu, że jeśli mielibyśmy dokładnie odtworzyć nasze procedury próbkowania i obliczeń CI wiele razy , 95% tak obliczonych CI zawierałoby średnią populacji. Wydaje się również, że zgoda ta …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.