Statystyki i duże zbiory danych

4

Kiedy używać frameworka Fisher i Neyman-Pearson?

Ostatnio dużo czytałem o różnicach między metodą testowania hipotez Fishera a szkołą myślenia Neymana-Pearsona. Moje pytanie brzmi, ignorując na chwilę obiekcje filozoficzne; kiedy powinniśmy zastosować podejście Fishera do modelowania statystycznego, a kiedy należy zastosować metodę poziomów istotności i tak dalej Neymana-Pearsona? Czy istnieje praktyczny sposób decydowania, który punkt widzenia poprzeć …

73 hypothesis-testing p-value methodology

4

Co to jest „nieinformacyjny przeor”? Czy możemy kiedykolwiek mieć taki bez żadnych informacji?

Inspirowany komentarzem do tego pytania : Co uważamy za „nieinformacyjne” z góry - i jakie informacje są nadal zawarte w rzekomo pozbawionym informacji przeorze? Zasadniczo widzę przeora w analizie, w której jest to analiza typu częstokrzyskiego, która próbuje pożyczyć kilka fajnych części z analizy bayesowskiej (czy może to być łatwiejsza …

73 bayesian prior

8

Jak obliczyć precyzję / przywołanie dla klasyfikacji wieloklasowej-wielowarstwowej?

Zastanawiam się, jak obliczyć dokładność i przywołać miary dla wieloklasowej klasyfikacji wielopłaszczyznowej, tj. Klasyfikacji, w której występują więcej niż dwie etykiety i gdzie każde wystąpienie może mieć wiele etykiet?

72 machine-learning classification precision-recall multi-class

7

Praktyczne zasady dotyczące minimalnej wielkości próby dla regresji wielokrotnej

W kontekście propozycji badań w naukach społecznych zadano mi następujące pytanie: Zawsze ustalałem minimalną wielkość próby dla regresji wielokrotnej o 100 + m (gdzie m jest liczbą predyktorów). Czy to jest właściwe? Często otrzymuję podobne pytania, często o różnych regułach. Często czytałem takie praktyczne zasady w różnych podręcznikach. Czasami zastanawiam …

72 regression sample-size power-analysis rule-of-thumb

14

Kiedy (jeśli w ogóle) podejście częstokroć jest istotnie lepsze od bayesowskiego?

Kontekst : Nie mam formalnego szkolenia w zakresie statystyki bayesowskiej (choć bardzo chcę dowiedzieć się więcej), ale wiem wystarczająco dużo - myślę - aby zrozumieć, dlaczego wielu uważa, że są lepsi od statystyk częstych. Nawet studenci studiów wprowadzających (w naukach społecznych), które uczę, uważają podejście Bayesa za atrakcyjne - „Dlaczego …

72 bayesian frequentist philosophical

7

Odległość euklidesowa zwykle nie jest dobra dla rzadkich danych?

Widziałem gdzieś, że klasyczne odległości (takie jak odległość euklidesowa) stają się słabo dyskryminujące, gdy mamy wielowymiarowe i rzadkie dane. Dlaczego? Czy masz przykład dwóch rzadkich wektorów danych, w których odległość euklidesowa nie działa dobrze? W takim przypadku, jakiego podobieństwa powinniśmy użyć?

72 machine-learning clustering data-mining sparse euclidean

4

Zależność między rozkładem Poissona a rozkładem wykładniczym

Czasy oczekiwania na rozkład Poissona są rozkładem wykładniczym z parametrem lambda. Ale ja tego nie rozumiem. Na przykład Poisson modeluje liczbę przyjazdów na jednostkę czasu. Jak to się ma do rozkładu wykładniczego? Powiedzmy, że prawdopodobieństwo przybycia k w jednostce czasu wynosi P (k) (modelowane przez Poissona), a prawdopodobieństwo k + …

72 distributions poisson-distribution exponential

10

Jaka jest pełna lista typowych założeń regresji liniowej?

Jakie są typowe założenia regresji liniowej? Czy obejmują one: liniowa zależność między zmienną niezależną i zależną niezależne błędy normalny rozkład błędów homoscedastyczność Czy są jeszcze jakieś?

72 regression assumptions

13

Jaka jest rola logarytmu w entropii Shannona?

Entropia Shannona jest ujemną z sumy prawdopodobieństw każdego wyniku pomnożonej przez logarytm prawdopodobieństwa każdego wyniku. Jaki cel służy logarytmowi w tym równaniu? Intuicyjna lub wizualna odpowiedź (w przeciwieństwie do głęboko matematycznej odpowiedzi) otrzyma dodatkowe punkty!

72 entropy intuition sequence-analysis

2

Dlaczego regresja kalenicy nazywa się „kalenicą”, dlaczego jest potrzebna i co dzieje się, gdy przechodzi w nieskończoność?

Szacunkowy współczynnik regresji grzbietu to wartości, które minimalizująβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. Moje pytania to: Jeśli , to widzimy, że powyższe wyrażenie redukuje się do zwykłego RSS. Co jeśli ? Nie rozumiem wyjaśnienia podręcznika dotyczącego zachowania współczynników.λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty Dlaczego, aby pomóc w zrozumieniu koncepcji danego terminu, …

71 ridge-regression statistical-learning history

2

Rozwiązywanie parametrów regresji w formie zamkniętej vs opadanie gradientu

Na kursie uczenia maszynowego Andrew Nga wprowadza regresję liniową i regresję logistyczną oraz pokazuje, jak dopasować parametry modelu za pomocą spadku gradientu i metody Newtona. Wiem, że zejście gradientowe może być przydatne w niektórych aplikacjach uczenia maszynowego (np. Propagacja wsteczna), ale w bardziej ogólnym przypadku jest jakiś powód, dla którego …

71 regression machine-learning logistic gradient-descent

8

Umiejętności trudne do znalezienia u uczących się maszyn?

Wydaje się, że eksploracja danych i uczenie maszynowe stały się tak popularne, że teraz prawie każdy student CS wie o klasyfikatorach, klastrowaniu, statystycznym NLP ... itd. Wygląda więc na to, że znalezienie eksploratorów danych nie jest obecnie trudną sprawą. Moje pytanie brzmi: jakie umiejętności mógłby nauczyć się eksplorator danych, co …

71 machine-learning data-mining

2

Usuwanie zduplikowanej ramki danych wierszy w R [zamknięte]

Jak mogę usunąć zduplikowane wiersze z tej przykładowej ramki danych? A 1 A 1 A 2 B 4 B 1 B 1 C 2 C 2 Chciałbym usunąć duplikaty na podstawie obu kolumn: A 1 A 2 B 4 B 1 C 2 Porządek nie jest ważny.

71 r

7

Jakie są główne oceny składowych?

Jakie są główne wyniki składowe (wyniki PC, wyniki PCA)?

71 pca definition

15

Kompletne merytoryczne przykłady odtwarzalnych badań z wykorzystaniem R.

Pytanie: Czy są jakieś dobre przykłady powtarzalnych badań z wykorzystaniem R, które są bezpłatnie dostępne online? Idealny przykład: W szczególności idealne przykłady zapewniłyby: Surowe dane (i najlepiej metadane wyjaśniające dane), Cały kod R, w tym import danych, przetwarzanie, analizy i generowanie danych wyjściowych, Sweave lub inne podejście do łączenia ostatecznego …

71 r references reproducible-research