Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

4
Cumming (2008) twierdzi, że rozkład wartości p uzyskanych w replikacjach zależy tylko od oryginalnej wartości p. Jak to może być prawda?
Czytałem artykuł Geoffa Cumminga z 2008 r. Replikacje i przedziały ppp : wartości ppp przewidują przyszłość tylko niejasno, ale przedziały ufności radzą sobie znacznie lepiej [~ 200 cytowań w Google Scholar] - i jestem zdezorientowany jednym z jej głównych twierdzeń. Jest to jeden z serii artykułów, w których Cumming sprzeciwia …


2
Wyprowadzenie zamkniętego rozwiązania lasso
minβ(Y−Xβ)T(Y−Xβ)minβ(Y−Xβ)T(Y−Xβ)\min_\beta (Y-X\beta)^T(Y-X\beta)∥β∥1≤t‖β‖1≤t\|\beta\|_1 \leq tβlassoj=sgn(βLSj)(|βLSj|−γ)+βjlasso=sgn(βjLS)(|βjLS|−γ)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\gamma)^+ XXX
52 lasso 

5
Sieci neuronowe vs maszyny wektorów wspierających: czy drugi jest zdecydowanie lepszy?
Wielu autorów artykułów, które czytałem, potwierdza, że ​​SVM to doskonała technika stawienia czoła ich problemom z regresją / klasyfikacją, wiedząc, że nie mogą uzyskać podobnych wyników za pośrednictwem NN. Często porównanie to stwierdza SVM zamiast NN, Mają silną teorię założycielską Osiągnij globalne maksimum dzięki programowaniu kwadratowemu Nie ma problemu z …

3
Założenie ANOVA normalność / rozkład normalny reszt
Strona Wikipedii na temat ANOVA wymienia trzy założenia , a mianowicie: Niezależność przypadków - jest to założenie modelu upraszczającego analizę statystyczną. Normalność - rozkłady reszt są normalne. Równość (lub „jednorodność”) wariancji, zwana homoscedastycznością ... Punkt zainteresowania jest tutaj drugim założeniem. Kilka źródeł wylicza założenie inaczej. Niektórzy mówią o normalności surowych …

6
Czy prognozy modelu losowego lasu mają przedział prognozy?
Jeśli uruchomię randomForestmodel, mogę następnie przewidywać na podstawie modelu. Czy istnieje sposób na uzyskanie przedziału prognoz dla każdej z prognoz, tak że wiem, jak „pewny” model ma odpowiedź. Jeśli jest to możliwe, czy jest to po prostu oparte na zmienności zmiennej zależnej dla całego modelu, czy będzie miał szersze i …

8
Excel jako stół roboczy statystyk
Wygląda na to, że wiele osób (w tym ja) lubi analizować dane eksploracyjne w programie Excel. Niektóre ograniczenia, takie jak dozwolona liczba wierszy w arkuszu kalkulacyjnym, są uciążliwe, ale w większości przypadków nie uniemożliwiają korzystania z programu Excel do zabawy z danymi. Artykuł McCullougha i Heisera jednak praktycznie krzyczy, że …

2
Jaki jest związek między testem chi-kwadrat a testem o równych proporcjach?
Załóżmy, że mam trzy populacje o czterech wzajemnie wykluczających się cechach. Pobieram losowe próbki z każdej populacji i tworzę tabelę krzyżową lub tabelę częstotliwości dla cech, które mierzę. Czy mam rację mówiąc, że: Gdybym chciał sprawdzić, czy istnieje jakikolwiek związek między populacjami a cechami (np. Czy jedna populacja ma wyższą …

14
Jaka jest najbardziej zaskakująca charakterystyka rozkładu Gaussa (normalnego)?
Standaryzowany rozkład Gaussa na można zdefiniować, podając wprost jego gęstość: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} lub jego charakterystyczna funkcja. Jak przypomniano w tym pytaniu, jest to również jedyny rozkład, dla którego średnia próbki i wariancja są niezależne. Jakie są inne zaskakujące alternatywne cechy miar Gaussa, które znasz? Przyjmę najbardziej zaskakującą odpowiedź

10
Grupowanie za pomocą macierzy odległości
Mam (symetryczną) macierz, Mktóra reprezentuje odległość między każdą parą węzłów. Na przykład, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 …
52 clustering 

2
W jaki sposób sztuczna sieć neuronowa ANN może być wykorzystywana do klastrowania bez nadzoru?
Rozumiem, w jaki sposób artificial neural network (ANN)można trenować w nadzorowany sposób, stosując propagację wsteczną, aby poprawić dopasowanie, zmniejszając błąd w prognozach. Słyszałem, że ANN można wykorzystać do nauki bez nadzoru, ale jak można tego dokonać bez jakiejś funkcji kosztowej, która poprowadziłaby etapy optymalizacji? W przypadku k-średnich lub algorytmu EM …




5
Kiedy niezrównoważone dane naprawdę stanowią problem w uczeniu maszynowym?
Mieliśmy już wiele pytań na temat niezrównoważonych danych podczas korzystania z regresji logistycznej , SVM , drzew decyzyjnych , tworzenia worków i wielu innych podobnych pytań, co sprawia, że ​​jest to bardzo popularny temat! Niestety, każde z pytań wydaje się być specyficzne dla algorytmu i nie znalazłem żadnych ogólnych wskazówek …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.