Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

30
Czy istnieje sposób na zapamiętanie definicji błędów typu I i typu II?
Z wykształcenia nie jestem statystykiem, jestem inżynierem oprogramowania. Jednak statystyki pojawiają się bardzo często. W rzeczywistości pytania dotyczące błędu typu I i typu II pojawiają się bardzo często w trakcie moich studiów do certyfikowanego stowarzyszenia Software Development Associate (matematyka i statystyka to 10% egzaminu). Zawsze mam problem z prawidłowymi definicjami …

14
Prosty algorytm do wykrywania wartości odstających online ogólnych szeregów czasowych
Pracuję z dużą ilością szeregów czasowych. Te szeregi czasowe są w zasadzie pomiarami sieci przychodzącymi co 10 minut, a niektóre z nich są okresowe (tj. Przepustowość), a inne nie (tj. Wielkość ruchu routingu). Chciałbym prosty algorytm do przeprowadzania online „wykrywania wartości odstających”. Zasadniczo chcę zachować w pamięci (lub na dysku) …

2
Jak bardzo powinniśmy się bać ostrzeżeń o konwergencji w lme4
Jeśli ponownie dopasowujemy się do blasku, możemy otrzymać ostrzeżenie, które mówi nam, że model ma trudności z konwergencją ... np. >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) innym sposobem sprawdzenia zbieżności omówionym w tym wątku przez …



2
Biorąc pod uwagę moc komputerów w dzisiejszych czasach, czy jest kiedykolwiek powód do przeprowadzenia testu chi-kwadrat zamiast dokładnego testu Fishera?
Biorąc pod uwagę, że oprogramowanie potrafi obecnie tak łatwo obliczać dokładne testy Fishera , czy istnieją jakieś okoliczności, w których teoretycznie lub praktycznie lepiej jest wykonać test chi-kwadrat niż dokładny test Fishera? Zalety dokładnego testu Fishera obejmują: skalowanie do tabel nieprzewidzianych większych niż 2x2 (tj. dowolna tabela r x c …


9
Czym dokładnie jest przedział ufności?
Z grubsza i nieformalnie wiem, jaki jest przedział ufności. Wydaje mi się jednak, że nie mogę owinąć głowy jednym ważnym punktem: według Wikipedii: Przedział ufności nie przewiduje, że prawdziwa wartość parametru ma szczególne prawdopodobieństwo, że znajdzie się w przedziale ufności, biorąc pod uwagę faktycznie uzyskane dane. Widziałem również podobne uwagi …

9
Czy istnieje intuicyjne wyjaśnienie, dlaczego wielokoliniowość stanowi problem w regresji liniowej?
Wiki omawia problemy, które powstają, gdy wielokoliniowość jest problemem regresji liniowej. Podstawowym problemem jest to, że wielokoliniowość powoduje niestabilne oszacowanie parametrów, co bardzo utrudnia ocenę wpływu zmiennych niezależnych na zmienne zależne. Rozumiem techniczne przyczyny problemów (może nie być w stanie odwrócić , źle warunkowane itp.), Ale szukam bardziej intuicyjnego (być …


24
Praktyczne zasady dla „nowoczesnych” statystyk
Lubię książkę G van Belle'a na temat statystycznych reguł kciuka oraz, w mniejszym stopniu, typowych błędów w statystyce (i jak ich uniknąć) autorstwa Phillipa I Gooda i Jamesa W. Hardina. Odnoszą się do typowych problemów podczas interpretacji wyników badań eksperymentalnych i obserwacyjnych oraz dostarczają praktycznych zaleceń dotyczących wnioskowania statystycznego lub …

16
W jakich warunkach korelacja oznacza związek przyczynowy?
Wszyscy wiemy, że mantra „korelacja nie implikuje związku przyczynowego”, która jest wniknięta we wszystkich studentów pierwszego roku statystyki. Istnieje kilka ciekawych przykładów tutaj ilustrujące ideę. Czasami jednak korelacja nie implikuje związku przyczynowego. Poniższy przykład pochodzi z tej strony Wikipedii Na przykład można przeprowadzić eksperyment na identycznych bliźniakach, o których wiadomo, …

4
Jak wybrać bibliotekę nlme lub lme4 R dla modeli efektów mieszanych?
Muszę zmieścić kilka modeli efektów mieszanych (zwłaszcza modele wzdłużny) używając lme4w Rale chciałby naprawdę opanować modeli i kod, który jedzie z nimi. Zanim jednak zanurzę się obiema stopami (i kupię książki), chcę mieć pewność, że uczę się odpowiedniej biblioteki. Przyzwyczaiłem lme4się do tej pory, ponieważ po prostu uważałem, że jest …

8
Jeśli wredny jest tak wrażliwy, po co go używać?
Wiadomo, że mediana jest odporna na wartości odstające. Jeśli tak jest, kiedy i dlaczego mielibyśmy użyć tego środka w pierwszej kolejności? Jedną rzeczą, o której mogę pomyśleć, może być zrozumienie obecności wartości odstających, tj. Jeśli mediana jest daleka od średniej, wówczas rozkład jest wypaczony i być może dane muszą zostać …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.