Statystyki i duże zbiory danych statistical-significance

3

Istotność statystyczna (wartość p) dla porównania dwóch klasyfikatorów w odniesieniu do (średniej) AUC ROC, czułości i swoistości

Mam zestaw testowy 100 przypadków i dwa klasyfikatory. Wygenerowałem prognozy i obliczyłem AUC ROC, czułość i swoistość dla obu klasyfikatorów. Pytanie 1: Jak obliczyć wartość p, aby sprawdzić, czy jedna jest znacznie lepsza od drugiej pod względem wszystkich wyników (AOC ROC, czułość, swoistość)? Teraz, dla tego samego zestawu testowego 100 …

14 machine-learning statistical-significance roc auc sensitivity-specificity

3

Dlaczego wysoka dodatnia kurtoza jest problematyczna w testach hipotez?

Słyszałem (przepraszam, nie mogę podać linku do tekstu, coś mi powiedziano), że wysoka dodatnia kurtoza reszt może być problematyczna dla dokładnych testów hipotez i przedziałów ufności (a zatem problemów z wnioskowaniem statystycznym). Czy to prawda, a jeśli tak, to dlaczego? Czy wysoka dodatnia kurtoza reszt nie wskazywałaby, że większość reszt …

14 statistical-significance p-value assumptions kurtosis

3

Co się stało ze znaczeniem statystycznym w regresji, gdy rozmiar danych jest gigantyczny?

Czytałem to pytanie dotyczące regresji na dużą skalę ( link ), gdzie whuber wskazał interesujący punkt w następujący sposób: „Prawie każdy test statystyczny, który przeprowadzisz, będzie tak potężny, że prawie na pewno zidentyfikujesz„ znaczący ”efekt. Musisz skupić się bardziej na znaczeniu statystycznym, takim jak wielkość efektu, a nie na znaczeniu”. …

13 regression statistical-significance

7

Czy błędem jest określanie wyników jako „prawie” lub „nieco” znaczących?

Ogólny konsensus w podobnej kwestii: czy błędem jest odnosić się do wyników jako „bardzo znaczących”? jest to, że „wysoce znaczący” jest ważnym, choć niespecyficznym, sposobem opisania siły powiązania, którego wartość p jest znacznie poniżej ustalonego progu istotności. A co z opisywaniem wartości p, które są nieco powyżej twojego progu? Widziałem, …

13 hypothesis-testing statistical-significance p-value terminology

1

O ile mniejsze mogą być wartości

Wprowadzenie: Po zwróceniu uwagi na to pytanie: „ Czy ANOVA może być znacząca, gdy żaden z testów t-par nie jest? ”, Pomyślałem, że może uda mi się zmienić jej ramkę w interesujący sposób, który zasługiwałby na własny zestaw odpowiedzi . Różnorodność niepoprawnych wyników (według wartości nominalnej) może wystąpić, gdy istotność …

13 hypothesis-testing anova statistical-significance t-test multiple-comparisons

2

Wykorzystanie statystycznego testu istotności do sprawdzenia poprawności wyników analizy skupień

Badam wykorzystanie statystycznego testowania istotności (SST) do walidacji wyników analizy skupień. Znalazłem kilka artykułów na ten temat, takich jak „ Statystyczne znaczenie grupowania dla danych o dużych wymiarach i małych próbkach ” Liu, Yufeng i in. (2008) „ O niektórych testach istotności w analizie skupień ”, Bock (1985) Ale jestem …

13 hypothesis-testing clustering statistical-significance

3

Jak porównać stoki regresji rozruchowej?

Załóżmy, że mam dwa zestawy danych z n obserwacjami par danych zmiennej niezależnej x i zmiennej zależnej y . Załóżmy dalej, że chcę wygenerować rozkład nachyleń regresji dla każdego zestawu danych, ładując obserwacje (z zamianą) N razy i obliczając regresję y = a + bxza każdym razem. Jak porównać oba …

13 regression statistical-significance bootstrap

1

Test istotności różnicy współczynnika korelacji Spearmana

(Bardzo dziękuję za szybkie odpowiedzi! Zadałem kiepskie zadanie, więc pozwól mi spróbować ponownie.) Nie wiem, jak sprawdzić, czy różnica między dwiema korelacjami Spearmana jest statystycznie istotna. Chciałbym wiedzieć, jak się tego dowiedzieć. Powodem, dla którego chciałem się dowiedzieć, jest następujący artykuł: Semantyczna interpretacja semantyczna oparta na Wikipedii , opracowana przez …

13 hypothesis-testing statistical-significance spearman-rho

1

LARS vs zejście współrzędnych dla lasso

Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Pakiet GBM vs. Caret korzystający z GBM

Stroiłem model przy użyciu caret, ale potem ponownie uruchomiłem model przy użyciu gbmpakietu. Rozumiem, że caretpakiet używa gbmi wynik powinien być taki sam. Jednak tylko szybki test przy użyciu data(iris)wykazuje rozbieżność w modelu około 5% przy użyciu RMSE i R ^ 2 jako metryki oceny. Chcę znaleźć optymalną wydajność modelu …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

3

Ogólna pozycja z wielu list rankingowych

Przejrzałem wiele literatury dostępnej online, w tym forum bez powodzenia i mając nadzieję, że ktoś może pomóc w problemach statystycznych, z którymi się obecnie spotykam: Mam 5 list danych rankingowych, każda zawierająca 10 pozycji w rankingu od pozycji 1 (najlepsza) do pozycji 10 (najgorsza). Ze względów kontekstowych 10 pozycji na …

13 statistical-significance ranking valuation

2

Znajdowanie najlepszych funkcji w modelach interakcji

Mam listę białek z ich wartościami funkcji. Przykładowa tabela wygląda następująco: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 Rzędy to białka, a kolumny to cechy. Mam również listę białek, które również wchodzą w interakcje; na przykład Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 Problem : W celu wstępnej analizy chcę wiedzieć, które cechy …

13 machine-learning statistical-significance feature-selection networks

2

Znaczenie korelacji krzyżowej w R

Jak stwierdzić, czy korelacje przy różnych opóźnieniach uzyskane z korelacji krzyżowej (funkcja ccf) dwóch szeregów czasowych są znaczące.

13 r statistical-significance cross-correlation

2

Dlaczego źle jest zatrzymać test A / B przed osiągnięciem optymalnej wielkości próbki?

Jestem odpowiedzialny za prezentowanie wyników testów A / B (przeprowadzanych na różnych stronach internetowych) w mojej firmie. Test przeprowadzamy przez miesiąc, a następnie sprawdzamy wartości p w regularnych odstępach czasu, aż osiągniemy istotność (lub porzucimy, jeśli istotność nie zostanie osiągnięta po długim czasie testowania), coś, co teraz dowiaduję się, jest …

13 hypothesis-testing statistical-significance bias ab-test optimal-stopping

3

Statystyki: Związek między wersją alfa i beta

Moje pytanie dotyczy związku między wersją alfa i beta oraz ich definicjami w statystykach. alfa = poziom błędu typu I = poziom istotności, biorąc pod uwagę, że hipoteza NULL jest poprawna Beta = poziom błędu typu II Jeśli alfa jest obniżone (swoistość wzrasta jako alfa = 1- specyficzność), beta wzrasta …

13 statistical-significance mathematical-statistics

Pytania otagowane jako statistical-significance