Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

7
Jak wybrać test t lub test nieparametryczny, np. Wilcoxon w małych próbkach
Niektóre hipotezy można przetestować za pomocą testu t- Studenta (być może przy użyciu poprawki Welcha dla nierównych wariancji w przypadku dwóch próbek) lub za pomocą testu nieparametrycznego, takiego jak test rangowany ze znakiem Wilcoxona, test U Wilcoxona-Manna-Whitneya, lub test sparowanego znaku. Jak możemy podjąć podstawową decyzję o tym, który test …

4
Jak intuicyjnie wyjaśnić, czym jest jądro?
Wiele klasyfikatorów uczenia maszynowego (np. Maszyny wektorów wsparcia) pozwala na określenie jądra. Jaki byłby intuicyjny sposób wyjaśnienia, czym jest jądro? Jednym z aspektów, o którym myślałem, jest rozróżnienie między liniowymi i nieliniowymi jądrami. Mówiąc prościej, mógłbym mówić o „liniowych funkcjach decyzyjnych” i „nieliniowych funkcjach decyzyjnych”. Nie jestem jednak pewien, czy …


6
Czy można trenować sieć neuronową bez propagacji wstecznej?
Wiele książek i samouczków dotyczących sieci neuronowych spędza dużo czasu na algorytmie propagacji wstecznej, który jest zasadniczo narzędziem do obliczania gradientu. Załóżmy, że budujemy model z ~ 10 000 parametrów / wag. Czy można uruchomić optymalizację przy użyciu niektórych algorytmów optymalizacji bez gradientu? Myślę, że obliczanie gradientu numerycznego byłoby zbyt …


2
Ile wiemy o hakowaniu p „na wolności”?
Wyrażenie p- hacking (także: „pogłębianie danych” , „szpiegowanie” lub „łowienie”) odnosi się do różnego rodzaju błędów statystycznych, w których wyniki stają się sztucznie statystycznie istotne. Istnieje wiele sposobów na uzyskanie „bardziej znaczącego” wyniku, w tym między innymi: analizowanie tylko „interesującego” podzbioru danych , w którym znaleziono wzorzec; niedostosowanie się do …

30
Jaką książkę poleciłbyś naukowcom niepaństwowym?
Jaką książkę poleciłbyś naukowcom niebędącym statystykami? Najbardziej ceniona jest przejrzysta dostawa. Jak również wyjaśnienie odpowiednich technik i metod dla typowych zadań: analiza szeregów czasowych, prezentacja i agregacja dużych zbiorów danych.
94 references 

13
Jaki jest najlepszy sposób identyfikowania wartości odstających w danych wielowymiarowych?
Załóżmy, że mam duży zestaw danych wielowymiarowych z co najmniej trzema zmiennymi. Jak znaleźć wartości odstające? Pary rozproszone wykresy nie będą działać, ponieważ możliwe jest istnienie wartości odstającej w 3 wymiarach, która nie jest wartością odstającą w żadnej z dwuwymiarowych podprzestrzeni. Nie myślę o problemie z regresją, ale o prawdziwych …


6
Niezbędne testy sprawdzające dane
W swojej roli zawodowej często pracuję z zestawami danych innych osób, nie-eksperci dostarczają mi dane kliniczne i pomagam im je podsumować i przeprowadzić testy statystyczne. Problem, który mam, polega na tym, że zestawy danych, które przynoszę, są prawie zawsze pełne literówek, niespójności i wszelkiego rodzaju innych problemów. Interesuje mnie to, …

3
Jak obliczasz precyzję i przywołujesz klasyfikację wieloklasową za pomocą macierzy pomyłek?
Zastanawiam się, jak obliczyć precyzję i przywołać za pomocą macierzy nieporozumień dla problemu klasyfikacji wielu klas. W szczególności obserwację można przypisać tylko do najbardziej prawdopodobnej klasy / etykiety. Chciałbym obliczyć: Precyzja = TP / (TP + FP) Recall = TP / (TP + FN) dla każdej klasy, a następnie obliczyć …

10
Dlaczego szeregi czasowe muszą być nieruchome?
Rozumiem, że stacjonarne szeregi czasowe to takie, których średnia i wariancja jest stała w czasie. Czy ktoś może wyjaśnić, dlaczego musimy upewnić się, że nasz zestaw danych jest stacjonarny, zanim będziemy mogli uruchamiać na nim różne modele ARIMA lub ARM? Czy dotyczy to również modeli regresji normalnej, w których autokorelacja …

12
Kim są Bayesianie?
Gdy interesują się statystyki, dychotomia „Frequentist” vs. „Bayesian” wkrótce staje się powszechna (a kto zresztą nie przeczytał Sygnału i hałasu Nate'a Silvera ?). W rozmowach i kursach wprowadzających punkt widzenia jest przeważnie częsty ( wartości MLE , ), ale zwykle ułamek czasu poświęca się na podziwianie formuły Bayesa i dotyka …


3
Zagnieżdżone sprawdzanie poprawności wyboru modelu
Jak wykorzystać zagnieżdżoną weryfikację krzyżową do wyboru modelu ? Z tego, co czytam online, zagnieżdżone CV działa w następujący sposób: Istnieje wewnętrzna pętla CV, w której możemy przeprowadzić wyszukiwanie siatki (np. Uruchomienie K-fold dla każdego dostępnego modelu, np. Kombinacja hiperparametrów / funkcji) Istnieje zewnętrzna pętla CV, w której mierzymy wydajność …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.