Statystyki i duże zbiory danych

16

Jakie niewłaściwie użyte warunki statystyczne warto poprawić?

Statystyka jest wszędzie; powszechne stosowanie terminów statystycznych jest jednak często niejasne. Terminy prawdopodobieństwo i szanse są używane zamiennie w świeckim języku angielskim, pomimo ich dobrze zdefiniowanych i różnych wyrażeń matematycznych. Nie oddzielanie terminu prawdopodobieństwo od rutynowo dezorientuje lekarzy próbujących oszacować prawdopodobieństwo raka piersi, biorąc pod uwagę pozytywną mammografię: „Och, jakie …

103 terminology

19

Jak zirytować sędziego statystycznego?

Niedawno zadałem pytanie dotyczące ogólnych zasad dotyczących przeglądu statystyk w artykułach . Chciałbym teraz zapytać o to, co szczególnie irytuje cię podczas recenzowania artykułu, czyli jaki jest najlepszy sposób, aby naprawdę zirytować sędziego statystycznego! Poproszę jeden przykład na odpowiedź.

102 references referee

5

Różnice między walidacją krzyżową a ładowaniem początkowym w celu oszacowania błędu prognozowania

Chciałbym, aby twoje przemyślenia na temat różnic między weryfikacją krzyżową a ładowaniem początkowym oszacowały błąd prognozowania. Czy lepiej działa w przypadku małych zestawów danych lub dużych zestawów danych?

102 cross-validation predictive-models bootstrap

2

Usuwanie istotnej statystycznie perspektywie przechwytujący zwiększa

W prostym modelu liniowym z jedną zmienną objaśniającą αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Znaleźć że usunięcie termin przechwytujący znacznie poprawia dopasowanie (wartość R2R2R^2 przechodzi od 0,3 do 0,9). Jednak pojęcie przechwytywania wydaje się istotne statystycznie. Z przechwyceniem: Call: lm(formula = alpha ~ delta, data = cf) Residuals: …

101 r linear-model interpretation r-squared intercept

3

Spadek gradientu wsadowego a gradient gradientu stochastycznego

Załóżmy, że mamy pewien zestaw treningowy ( x( i ), y( i ))(x(i),y(i))(x_{(i)}, y_{(i)}) dla i = 1 , … , mi=1,…,mi = 1, \dots, m . Załóżmy również, że uruchamiamy pewien rodzaj algorytmu uczenia nadzorowanego na zestawie szkoleniowym. Hipotezy są reprezentowane jako hθ( x( i )) = θ0+ θ1x( …

101 optimization gradient-descent sgd

8

ASA omawia ograniczenia wartości

Mamy już wiele wątków oznaczonych jako wartości p, które ujawniają wiele nieporozumień na ich temat. Dziesięć miesięcy temu mieliśmy wątek o czasopiśmie psychologicznym, który „zakazał” wartości ppp , obecnie Amerykańskie Stowarzyszenie Statystyczne (2016) mówi, że dzięki naszej analizie „nie powinniśmy kończyć się obliczeniem wartości ”.ppp Amerykańskie Stowarzyszenie Statystyczne (ASA) uważa, …

100 hypothesis-testing bayesian p-value frequentist

10

Jaka jest różnica między korelacją a prostą regresją liniową?

W szczególności mam na myśli współczynnik korelacji iloczynu Pearsona.

99 correlation regression

14

Książki do samodzielnej analizy szeregów czasowych?

Zacząłem od analizy szeregów czasowych Hamiltona, ale gubię się beznadziejnie. Ta książka jest naprawdę zbyt teoretyczna, żebym mogła się jej nauczyć. Czy ktoś ma zalecenie dotyczące podręcznika do analizy szeregów czasowych, który jest odpowiedni do samodzielnego studiowania?

99 time-series self-study references

25

Lokalizowanie swobodnie dostępnych próbek danych

Pracowałem nad nową metodą analizy i analizy zestawów danych w celu identyfikacji i izolacji podgrup populacji bez uprzedniej wiedzy o cechach podgrup. Chociaż metoda działa wystarczająco dobrze ze sztucznymi próbkami danych (tj. Zestawami danych utworzonymi specjalnie w celu identyfikacji i segregacji podzbiorów populacji), chciałbym spróbować przetestować ją z danymi na …

98 dataset sample population teaching

9

Czy tak naprawdę działają wartości p? Czy milion artykułów naukowych rocznie może być oparty na czystej przypadkowości?

Jestem bardzo nowy w statystyce i dopiero uczę się rozumieć podstawy, w tym wartości . Ale teraz mam w głowie ogromny znak zapytania i mam nadzieję, że moje zrozumienie jest błędne. Oto mój proces myślowy:ppp Czy wszystkie badania na świecie nie przypominają małp w „twierdzeniu o nieskończonej małpie”? Weź pod …

98 hypothesis-testing statistical-significance p-value

1

Drzewa wnioskowania warunkowego a tradycyjne drzewa decyzyjne

Czy ktoś może wyjaśnić podstawowe różnice między drzewami wnioskowania warunkowego ( ctreez partypakietu w R) w porównaniu do bardziej tradycyjnych algorytmów drzewa decyzyjnego (takich jak rpartw R)? Co wyróżnia drzewa CI? Mocne i słabe strony? Aktualizacja: Przejrzałem artykuł Horthorna i wsp., Do którego Chi odwołuje się w komentarzach. Nie byłem …

97 r machine-learning cart

9

Jaka jest różnica między regresją liniową na y przy xi x przy y?

Współczynnik korelacji Pearsona x i y jest taki sam, bez względu na to, czy obliczasz Pearson (x, y) czy pearson (y, x). Sugeruje to, że regresja liniowa y dla x lub x dla y powinna być taka sama, ale nie sądzę, żeby tak było. Czy ktoś może rzucić światło na …

97 regression correlation linear-model pearson-r

6

Dlaczego norma L1 dla rzadkich modeli

Czytam książki o regresji liniowej. Istnieje kilka zdań na temat norm L1 i L2. Znam je, po prostu nie rozumiem, dlaczego norma L1 dla rzadkich modeli. Czy ktoś może użyć prostego wyjaśnienia?

97 regression lasso regularization ridge-regression

3

Intuicyjne wyjaśnienie rdzenia jednostki

Jak wyjaśniłbyś intuicyjnie, czym jest root root, w kontekście testu root root? Zastanawiam się nad wytłumaczeniem, tak jak założyłem to pytanie . Przypadek z pierwiastkiem jednostkowym jest taki, że wiem (przy okazji, mało), że test pierwiastka jednostkowego służy do testowania stacjonarności w szeregu czasowym, ale to po prostu to. Jak …

97 intuition unit-root

4

Różnica między błędem standardowym a odchyleniem standardowym

Próbuję zrozumieć różnicę między błędem standardowym a odchyleniem standardowym. Czym się różnią i dlaczego należy zmierzyć błąd standardowy?

96 mean standard-deviation standard-error intuition