Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych



2
Optymalna liczba fałdów w walidacji krzyżowej krotności
Pomijając rozważania dotyczące mocy obliczeniowej, czy istnieją jakiekolwiek powody, by sądzić, że zwiększenie liczby fałdów w walidacji krzyżowej prowadzi do lepszego wyboru / walidacji modelu (tj. Że im wyższa liczba fałdów, tym lepiej)? Mówiąc skrajnie, czy wykluczająca się krzyżowa walidacja niekoniecznie prowadzi do lepszych modeli niż krzyżowa walidacja -krotnie?KKK Podstawowe …

5
Interpretacja QQplot - Czy istnieje jakaś reguła, która decyduje o braku normalności?
Przeczytałem tutaj wystarczająco dużo wątków na temat QQplots, aby zrozumieć, że QQplot może być bardziej pouczający niż inne testy normalności. Jednak nie mam doświadczenia w interpretacji QQplots. Dużo googlowałem; Znalazłem wiele wykresów nietypowych wykresów QQ, ale nie ma jasnych zasad ich interpretacji, poza tym, co wydaje się być porównaniem ze …


2
Czy splajny nie pasują do danych?
Mój problem : Niedawno spotkałem statystykę, który poinformował mnie, że splajny są przydatne tylko do eksploracji danych i podlegają nadmiernemu dopasowaniu, a zatem nie są przydatne w przewidywaniu. Wolał odkrywać za pomocą prostych wielomianów ... Ponieważ jestem wielkim fanem splajnów, a to wbrew mojej intuicji, jestem zainteresowany ustaleniem, jak ważne …


4
Dlaczego oczekiwanie jest takie samo jak średnia arytmetyczna?
Dzisiaj natknąłem się na nowy temat zatytułowany Oczekiwanie matematyczne. Książka, którą obserwuję, mówi: oczekiwanie jest średnią arytmetyczną zmiennej losowej pochodzącej z dowolnego rozkładu prawdopodobieństwa. Ale definiuje oczekiwanie jako sumę iloczynu niektórych danych i prawdopodobieństwa ich wystąpienia. Jak te dwie wartości (średnia i oczekiwanie) mogą być takie same? W jaki sposób …

4
Jak dokonać wyboru podzbioru regresji logistycznej?
Dopasowuję dwumianową rodzinę glm w R i mam całą grupę zmiennych objaśniających i muszę znaleźć najlepsze (R-kwadrat jako miara jest w porządku). Krótko po napisaniu skryptu do przechodzenia między losowymi różnymi kombinacjami zmiennych objaśniających, a następnie nagraniu, które działa najlepiej, naprawdę nie wiem, co robić. Wydaje się, że leapsfunkcja przeskakiwania …
47 r  logistic 

6
Samouczek statystyki bayesowskiej
Próbuję przyspieszyć w statystykach bayesowskich. Mam trochę tła statystyk (STAT 101), ale nie za dużo - myślę, że mogę zrozumieć wcześniejsze, późniejsze i prawdopodobieństwo: D. Nie chcę jeszcze czytać podręcznika bayesowskiego. Wolałbym czytać ze źródła (preferowana strona internetowa), który szybko mnie przyspieszy. Coś w tym stylu , ale ma więcej …

5
Pierwszy kod źródłowy pakietów R do nauki w ramach przygotowań do napisania własnego pakietu
Planuję zacząć pisać paczki R. Pomyślałem, że dobrze byłoby przestudiować kod źródłowy istniejących pakietów, aby poznać konwencje budowy pakietów. Moje kryteria dobrych pakietów do nauki: Proste pomysły statystyczne / techniczne : Chodzi o poznanie mechaniki konstrukcji opakowań. Zrozumienie pakietu nie powinno wymagać szczegółowej wiedzy ściśle związanej z domeną na temat …
47 r 

15
Najbardziej mylące terminy statystyczne
My, statystycy, używamy wielu słów w nieco inny sposób niż wszyscy inni. Powoduje to wiele problemów, gdy uczymy lub wyjaśniamy, co robimy. Rozpocznę listę (a teraz dodam kilka definicji, w komentarzach): Moc to zdolność do prawidłowego odrzucenia fałszywej hipotezy zerowej. Zwykle oznacza to prawidłowe powiedzenie „coś się dzieje”. Odchylenie - …



14
Wyjaśnienie dotyczące interpretacji przedziałów ufności?
Moje obecne rozumienie pojęcia „przedziału ufności z poziomem ufności ” jest to, że jeśli będziemy próbowali obliczyć przedział ufności wiele razy (za każdym razem świeżą próbkę), będzie ona zawierać poprawny parametr z czas.1 - α1−α1−α1 - \alpha1−α1−α1 - \alpha Chociaż zdaję sobie sprawę, że to nie to samo, co „prawdopodobieństwo, …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.