Statystyki i duże zbiory danych

4

Cumming (2008) twierdzi, że rozkład wartości p uzyskanych w replikacjach zależy tylko od oryginalnej wartości p. Jak to może być prawda?

Czytałem artykuł Geoffa Cumminga z 2008 r. Replikacje i przedziały ppp : wartości ppp przewidują przyszłość tylko niejasno, ale przedziały ufności radzą sobie znacznie lepiej [~ 200 cytowań w Google Scholar] - i jestem zdezorientowany jednym z jej głównych twierdzeń. Jest to jeden z serii artykułów, w których Cumming sprzeciwia …

52 hypothesis-testing p-value power replicability

8

Współczesny następca eksploracyjnej analizy danych Tukeya?

Czytałem książkę Tukeya „Analiza danych eksploracyjnych”. Książka, napisana w 1977 r., Podkreśla metody papierowe / ołówkowe. Czy istnieje bardziej „nowoczesny” następca, który bierze pod uwagę, że możemy teraz błyskawicznie wykreślić duże zbiory danych?

52 data-visualization references descriptive-statistics eda

2

Wyprowadzenie zamkniętego rozwiązania lasso

minβ(Y−Xβ)T(Y−Xβ)minβ(Y−Xβ)T(Y−Xβ)\min_\beta (Y-X\beta)^T(Y-X\beta)∥β∥1≤t‖β‖1≤t\|\beta\|_1 \leq tβlassoj=sgn(βLSj)(|βLSj|−γ)+βjlasso=sgn(βjLS)(|βjLS|−γ)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\gamma)^+ XXX

52 lasso

5

Sieci neuronowe vs maszyny wektorów wspierających: czy drugi jest zdecydowanie lepszy?

Wielu autorów artykułów, które czytałem, potwierdza, że SVM to doskonała technika stawienia czoła ich problemom z regresją / klasyfikacją, wiedząc, że nie mogą uzyskać podobnych wyników za pośrednictwem NN. Często porównanie to stwierdza SVM zamiast NN, Mają silną teorię założycielską Osiągnij globalne maksimum dzięki programowaniu kwadratowemu Nie ma problemu z …

52 machine-learning svm neural-networks

3

Założenie ANOVA normalność / rozkład normalny reszt

Strona Wikipedii na temat ANOVA wymienia trzy założenia , a mianowicie: Niezależność przypadków - jest to założenie modelu upraszczającego analizę statystyczną. Normalność - rozkłady reszt są normalne. Równość (lub „jednorodność”) wariancji, zwana homoscedastycznością ... Punkt zainteresowania jest tutaj drugim założeniem. Kilka źródeł wylicza założenie inaczej. Niektórzy mówią o normalności surowych …

52 anova residuals assumptions normality-assumption

6

Czy prognozy modelu losowego lasu mają przedział prognozy?

Jeśli uruchomię randomForestmodel, mogę następnie przewidywać na podstawie modelu. Czy istnieje sposób na uzyskanie przedziału prognoz dla każdej z prognoz, tak że wiem, jak „pewny” model ma odpowiedź. Jeśli jest to możliwe, czy jest to po prostu oparte na zmienności zmiennej zależnej dla całego modelu, czy będzie miał szersze i …

52 r confidence-interval random-forest

8

Excel jako stół roboczy statystyk

Wygląda na to, że wiele osób (w tym ja) lubi analizować dane eksploracyjne w programie Excel. Niektóre ograniczenia, takie jak dozwolona liczba wierszy w arkuszu kalkulacyjnym, są uciążliwe, ale w większości przypadków nie uniemożliwiają korzystania z programu Excel do zabawy z danymi. Artykuł McCullougha i Heisera jednak praktycznie krzyczy, że …

52 software computational-statistics excel

2

Jaki jest związek między testem chi-kwadrat a testem o równych proporcjach?

Załóżmy, że mam trzy populacje o czterech wzajemnie wykluczających się cechach. Pobieram losowe próbki z każdej populacji i tworzę tabelę krzyżową lub tabelę częstotliwości dla cech, które mierzę. Czy mam rację mówiąc, że: Gdybym chciał sprawdzić, czy istnieje jakikolwiek związek między populacjami a cechami (np. Czy jedna populacja ma wyższą …

52 chi-squared proportion contingency-tables z-test

14

Jaka jest najbardziej zaskakująca charakterystyka rozkładu Gaussa (normalnego)?

Standaryzowany rozkład Gaussa na można zdefiniować, podając wprost jego gęstość: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} lub jego charakterystyczna funkcja. Jak przypomniano w tym pytaniu, jest to również jedyny rozkład, dla którego średnia próbki i wariancja są niezależne. Jakie są inne zaskakujące alternatywne cechy miar Gaussa, które znasz? Przyjmę najbardziej zaskakującą odpowiedź

52 probability normal-distribution mathematical-statistics characteristic-function

10

Grupowanie za pomocą macierzy odległości

Mam (symetryczną) macierz, Mktóra reprezentuje odległość między każdą parą węzłów. Na przykład, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 …

52 clustering

2

W jaki sposób sztuczna sieć neuronowa ANN może być wykorzystywana do klastrowania bez nadzoru?

Rozumiem, w jaki sposób artificial neural network (ANN)można trenować w nadzorowany sposób, stosując propagację wsteczną, aby poprawić dopasowanie, zmniejszając błąd w prognozach. Słyszałem, że ANN można wykorzystać do nauki bez nadzoru, ale jak można tego dokonać bez jakiejś funkcji kosztowej, która poprowadziłaby etapy optymalizacji? W przypadku k-średnich lub algorytmu EM …

52 clustering neural-networks unsupervised-learning self-organizing-maps

6

Klasyfikacja binarna z klasami wysoce niezrównoważonymi

Mam zestaw danych w postaci (funkcje, wyjście binarne 0 lub 1), ale 1 zdarza się dość rzadko, więc po prostu zawsze przewidując 0, uzyskuję dokładność między 70% a 90% (w zależności od konkretnych danych, na które patrzę ). Metody ML dają mi tę samą dokładność i uważam, że powinny być …

52 machine-learning classification binary-data unbalanced-classes

5

Czy konieczne jest skalowanie wartości docelowej oprócz funkcji skalowania do analizy regresji?

Buduję modele regresji. Na etapie wstępnego przetwarzania skaluję wartości funkcji, aby uzyskać średnią 0 i odchylenie standardowe 1. Czy konieczne jest również znormalizowanie wartości docelowych?

52 regression machine-learning

4

W jakich warunkach należy stosować skale Likerta jako dane porządkowe lub przedziałowe?

Wiele badań w naukach społecznych wykorzystuje skale Likerta. Kiedy należy użyć danych Likerta jako liczby porządkowej, a kiedy należy użyć ich jako danych przedziału czasu?

52 ordinal-data likert scales measurement

5

Kiedy niezrównoważone dane naprawdę stanowią problem w uczeniu maszynowym?

Mieliśmy już wiele pytań na temat niezrównoważonych danych podczas korzystania z regresji logistycznej , SVM , drzew decyzyjnych , tworzenia worków i wielu innych podobnych pytań, co sprawia, że jest to bardzo popularny temat! Niestety, każde z pytań wydaje się być specyficzne dla algorytmu i nie znalazłem żadnych ogólnych wskazówek …

52 machine-learning classification predictive-models unbalanced-classes