Statystyki i duże zbiory danych

7

Jak wybrać test t lub test nieparametryczny, np. Wilcoxon w małych próbkach

Niektóre hipotezy można przetestować za pomocą testu t- Studenta (być może przy użyciu poprawki Welcha dla nierównych wariancji w przypadku dwóch próbek) lub za pomocą testu nieparametrycznego, takiego jak test rangowany ze znakiem Wilcoxona, test U Wilcoxona-Manna-Whitneya, lub test sparowanego znaku. Jak możemy podjąć podstawową decyzję o tym, który test …

96 hypothesis-testing t-test nonparametric small-sample wilcoxon-mann-whitney

4

Jak intuicyjnie wyjaśnić, czym jest jądro?

Wiele klasyfikatorów uczenia maszynowego (np. Maszyny wektorów wsparcia) pozwala na określenie jądra. Jaki byłby intuicyjny sposób wyjaśnienia, czym jest jądro? Jednym z aspektów, o którym myślałem, jest rozróżnienie między liniowymi i nieliniowymi jądrami. Mówiąc prościej, mógłbym mówić o „liniowych funkcjach decyzyjnych” i „nieliniowych funkcjach decyzyjnych”. Nie jestem jednak pewien, czy …

96 machine-learning svm references kernel-trick intuition

4

Jak wybrać jądro dla SVM?

Podczas korzystania z SVM musimy wybrać jądro. Zastanawiam się, jak wybrać jądro. Jakieś kryteria wyboru jądra?

95 machine-learning svm kernel-trick

6

Czy można trenować sieć neuronową bez propagacji wstecznej?

Wiele książek i samouczków dotyczących sieci neuronowych spędza dużo czasu na algorytmie propagacji wstecznej, który jest zasadniczo narzędziem do obliczania gradientu. Załóżmy, że budujemy model z ~ 10 000 parametrów / wag. Czy można uruchomić optymalizację przy użyciu niektórych algorytmów optymalizacji bez gradientu? Myślę, że obliczanie gradientu numerycznego byłoby zbyt …

94 machine-learning neural-networks optimization backpropagation

3

Różnica między neuronowym zanikiem masy netto a szybkością uczenia się

W kontekście sieci neuronowych, jaka jest różnica między współczynnikiem uczenia się a spadkiem masy ciała?

94 neural-networks terminology

2

Ile wiemy o hakowaniu p „na wolności”?

Wyrażenie p- hacking (także: „pogłębianie danych” , „szpiegowanie” lub „łowienie”) odnosi się do różnego rodzaju błędów statystycznych, w których wyniki stają się sztucznie statystycznie istotne. Istnieje wiele sposobów na uzyskanie „bardziej znaczącego” wyniku, w tym między innymi: analizowanie tylko „interesującego” podzbioru danych , w którym znaleziono wzorzec; niedostosowanie się do …

94 hypothesis-testing statistical-significance p-value model-selection reproducible-research

30

Jaką książkę poleciłbyś naukowcom niepaństwowym?

Jaką książkę poleciłbyś naukowcom niebędącym statystykami? Najbardziej ceniona jest przejrzysta dostawa. Jak również wyjaśnienie odpowiednich technik i metod dla typowych zadań: analiza szeregów czasowych, prezentacja i agregacja dużych zbiorów danych.

94 references

13

Jaki jest najlepszy sposób identyfikowania wartości odstających w danych wielowymiarowych?

Załóżmy, że mam duży zestaw danych wielowymiarowych z co najmniej trzema zmiennymi. Jak znaleźć wartości odstające? Pary rozproszone wykresy nie będą działać, ponieważ możliwe jest istnienie wartości odstającej w 3 wymiarach, która nie jest wartością odstającą w żadnej z dwuwymiarowych podprzestrzeni. Nie myślę o problemie z regresją, ale o prawdziwych …

94 multivariate-analysis outliers

5

Kompleksowa lista funkcji aktywacyjnych w sieciach neuronowych z zaletami / wadami

Czy istnieją jakieś dokumenty referencyjne, które podają wyczerpującą listę funkcji aktywacyjnych w sieciach neuronowych wraz z ich zaletami / wadami (a najlepiej niektóre wskazówki do publikacji, w których były skuteczne lub nie tak skuteczne)?

94 neural-networks references

6

Niezbędne testy sprawdzające dane

W swojej roli zawodowej często pracuję z zestawami danych innych osób, nie-eksperci dostarczają mi dane kliniczne i pomagam im je podsumować i przeprowadzić testy statystyczne. Problem, który mam, polega na tym, że zestawy danych, które przynoszę, są prawie zawsze pełne literówek, niespójności i wszelkiego rodzaju innych problemów. Interesuje mnie to, …

93 dataset outliers checking

3

Jak obliczasz precyzję i przywołujesz klasyfikację wieloklasową za pomocą macierzy pomyłek?

Zastanawiam się, jak obliczyć precyzję i przywołać za pomocą macierzy nieporozumień dla problemu klasyfikacji wielu klas. W szczególności obserwację można przypisać tylko do najbardziej prawdopodobnej klasy / etykiety. Chciałbym obliczyć: Precyzja = TP / (TP + FP) Recall = TP / (TP + FN) dla każdej klasy, a następnie obliczyć …

92 machine-learning classification precision-recall multi-class

10

Dlaczego szeregi czasowe muszą być nieruchome?

Rozumiem, że stacjonarne szeregi czasowe to takie, których średnia i wariancja jest stała w czasie. Czy ktoś może wyjaśnić, dlaczego musimy upewnić się, że nasz zestaw danych jest stacjonarny, zanim będziemy mogli uruchamiać na nim różne modele ARIMA lub ARM? Czy dotyczy to również modeli regresji normalnej, w których autokorelacja …

92 regression time-series stationarity

12

Kim są Bayesianie?

Gdy interesują się statystyki, dychotomia „Frequentist” vs. „Bayesian” wkrótce staje się powszechna (a kto zresztą nie przeczytał Sygnału i hałasu Nate'a Silvera ?). W rozmowach i kursach wprowadzających punkt widzenia jest przeważnie częsty ( wartości MLE , ), ale zwykle ułamek czasu poświęca się na podziwianie formuły Bayesa i dotyka …

92 bayesian mathematical-statistics inference bayes frequentist

2

Czym jest kowariancja w prostym języku?

Co to jest kowariancja w prostym języku i w jaki sposób jest ona powiązana ze strukturą zależności , korelacji i struktury wariancji-kowariancji w odniesieniu do schematów powtarzanych pomiarów?

92 correlation repeated-measures terminology covariance independence

3

Zagnieżdżone sprawdzanie poprawności wyboru modelu

Jak wykorzystać zagnieżdżoną weryfikację krzyżową do wyboru modelu ? Z tego, co czytam online, zagnieżdżone CV działa w następujący sposób: Istnieje wewnętrzna pętla CV, w której możemy przeprowadzić wyszukiwanie siatki (np. Uruchomienie K-fold dla każdego dostępnego modelu, np. Kombinacja hiperparametrów / funkcji) Istnieje zewnętrzna pętla CV, w której mierzymy wydajność …

91 cross-validation model-selection