Statystyki i duże zbiory danych

30

Czy istnieje sposób na zapamiętanie definicji błędów typu I i typu II?

Z wykształcenia nie jestem statystykiem, jestem inżynierem oprogramowania. Jednak statystyki pojawiają się bardzo często. W rzeczywistości pytania dotyczące błędu typu I i typu II pojawiają się bardzo często w trakcie moich studiów do certyfikowanego stowarzyszenia Software Development Associate (matematyka i statystyka to 10% egzaminu). Zawsze mam problem z prawidłowymi definicjami …

88 terminology type-i-and-ii-errors

14

Prosty algorytm do wykrywania wartości odstających online ogólnych szeregów czasowych

Pracuję z dużą ilością szeregów czasowych. Te szeregi czasowe są w zasadzie pomiarami sieci przychodzącymi co 10 minut, a niektóre z nich są okresowe (tj. Przepustowość), a inne nie (tj. Wielkość ruchu routingu). Chciałbym prosty algorytm do przeprowadzania online „wykrywania wartości odstających”. Zasadniczo chcę zachować w pamięci (lub na dysku) …

88 time-series outliers mathematical-statistics real-time

2

Jak bardzo powinniśmy się bać ostrzeżeń o konwergencji w lme4

Jeśli ponownie dopasowujemy się do blasku, możemy otrzymać ostrzeżenie, które mówi nam, że model ma trudności z konwergencją ... np. >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) innym sposobem sprawdzenia zbieżności omówionym w tym wątku przez …

88 r mixed-model lme4-nlme

3

Co to jest niedobór rang i jak sobie z tym poradzić?

Dopasowanie regresji logistycznej za pomocą lme4 kończy się na Error in mer_finalize(ans) : Downdated X'X is not positive definite. Prawdopodobną przyczyną tego błędu jest najwyraźniej brak rangi. Co to jest niedobór rang i jak go rozwiązać?

87 r logistic lme4-nlme

5

Jakie są główne różnice między średnimi K i najbliższymi sąsiadami?

Wiem, że k-średnie nie jest nadzorowane i jest używane do grupowania itp. I że k-NN jest nadzorowany. Ale chciałem poznać konkretne różnice między nimi?

86 machine-learning k-means k-nearest-neighbour

2

Biorąc pod uwagę moc komputerów w dzisiejszych czasach, czy jest kiedykolwiek powód do przeprowadzenia testu chi-kwadrat zamiast dokładnego testu Fishera?

Biorąc pod uwagę, że oprogramowanie potrafi obecnie tak łatwo obliczać dokładne testy Fishera , czy istnieją jakieś okoliczności, w których teoretycznie lub praktycznie lepiej jest wykonać test chi-kwadrat niż dokładny test Fishera? Zalety dokładnego testu Fishera obejmują: skalowanie do tabel nieprzewidzianych większych niż 2x2 (tj. dowolna tabela r x c …

86 chi-squared contingency-tables fishers-exact

3

Jakie są przykłady, w których zawodzi „naiwny bootstrap”?

Załóżmy, że mam zestaw przykładowych danych z nieznanego lub złożonego rozkładu i chcę przeprowadzić wnioskowanie na temat statystyki TTT danych. Domyślną nachylenia jest tylko generować kilka próbek bootstrap z wymianą i obliczyć moje statystyki TTT na każdej próbce bootstrap stworzyć szacunkowy podział dla TTT . Jakie są przykłady, w których …

86 hypothesis-testing confidence-interval bootstrap

9

Czym dokładnie jest przedział ufności?

Z grubsza i nieformalnie wiem, jaki jest przedział ufności. Wydaje mi się jednak, że nie mogę owinąć głowy jednym ważnym punktem: według Wikipedii: Przedział ufności nie przewiduje, że prawdziwa wartość parametru ma szczególne prawdopodobieństwo, że znajdzie się w przedziale ufności, biorąc pod uwagę faktycznie uzyskane dane. Widziałem również podobne uwagi …

86 confidence-interval definition

9

Czy istnieje intuicyjne wyjaśnienie, dlaczego wielokoliniowość stanowi problem w regresji liniowej?

Wiki omawia problemy, które powstają, gdy wielokoliniowość jest problemem regresji liniowej. Podstawowym problemem jest to, że wielokoliniowość powoduje niestabilne oszacowanie parametrów, co bardzo utrudnia ocenę wpływu zmiennych niezależnych na zmienne zależne. Rozumiem techniczne przyczyny problemów (może nie być w stanie odwrócić , źle warunkowane itp.), Ale szukam bardziej intuicyjnego (być …

85 regression intuition multicollinearity

17

Uwzględniając interakcję, ale nie główne efekty w modelu

Czy kiedykolwiek jest uzasadnione włączenie dwukierunkowej interakcji do modelu bez uwzględnienia głównych efektów? Co jeśli twoja hipoteza dotyczy tylko interakcji, czy nadal musisz uwzględnić główne efekty?

85 regression modeling interaction regression-coefficients

24

Praktyczne zasady dla „nowoczesnych” statystyk

Lubię książkę G van Belle'a na temat statystycznych reguł kciuka oraz, w mniejszym stopniu, typowych błędów w statystyce (i jak ich uniknąć) autorstwa Phillipa I Gooda i Jamesa W. Hardina. Odnoszą się do typowych problemów podczas interpretacji wyników badań eksperymentalnych i obserwacyjnych oraz dostarczają praktycznych zaleceń dotyczących wnioskowania statystycznego lub …

85 modeling eda rule-of-thumb

16

W jakich warunkach korelacja oznacza związek przyczynowy?

Wszyscy wiemy, że mantra „korelacja nie implikuje związku przyczynowego”, która jest wniknięta we wszystkich studentów pierwszego roku statystyki. Istnieje kilka ciekawych przykładów tutaj ilustrujące ideę. Czasami jednak korelacja nie implikuje związku przyczynowego. Poniższy przykład pochodzi z tej strony Wikipedii Na przykład można przeprowadzić eksperyment na identycznych bliźniakach, o których wiadomo, …

85 correlation causality

4

Jak wybrać bibliotekę nlme lub lme4 R dla modeli efektów mieszanych?

Muszę zmieścić kilka modeli efektów mieszanych (zwłaszcza modele wzdłużny) używając lme4w Rale chciałby naprawdę opanować modeli i kod, który jedzie z nimi. Zanim jednak zanurzę się obiema stopami (i kupię książki), chcę mieć pewność, że uczę się odpowiedniej biblioteki. Przyzwyczaiłem lme4się do tej pory, ponieważ po prostu uważałem, że jest …

85 r mixed-model lme4-nlme

8

Jeśli wredny jest tak wrażliwy, po co go używać?

Wiadomo, że mediana jest odporna na wartości odstające. Jeśli tak jest, kiedy i dlaczego mielibyśmy użyć tego środka w pierwszej kolejności? Jedną rzeczą, o której mogę pomyśleć, może być zrozumienie obecności wartości odstających, tj. Jeśli mediana jest daleka od średniej, wówczas rozkład jest wypaczony i być może dane muszą zostać …

84 mathematical-statistics mean median

1

Jak zastosować sieć neuronową do prognozowania szeregów czasowych?

Jestem nowy w uczeniu maszynowym i starałem się dowiedzieć, jak zastosować sieć neuronową do prognozowania szeregów czasowych. Znalazłem zasoby związane z moim zapytaniem, ale nadal wydaje mi się, że jestem trochę zagubiony. Myślę, że podstawowe wyjaśnienie bez zbyt wielu szczegółów pomogłoby. Powiedzmy, że mam kilka cen na każdy miesiąc w …

83 time-series forecasting neural-networks