Statystyki i duże zbiory danych

4

Nierównowaga klas w nadzorowanym uczeniu maszynowym

Jest to ogólnie pytanie, które nie jest specyficzne dla żadnej metody ani zestawu danych. Jak radzimy sobie z problemem nierównowagi klas w uczeniu maszynowym nadzorowanym, w którym liczba 0 wynosi około 90%, a liczba 1 wynosi około 10% w zbiorze danych. Jak optymalnie szkolimy klasyfikatora. Jednym ze sposobów, które stosuję, …

47 machine-learning unbalanced-classes supervised-learning

3

AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Czy mogę używać ich zamiennie?

Na str. 34 ze swojego PRNN Brian Ripley komentuje, że „AIC został nazwany przez Akaike (1974) jako„ Kryterium informacyjne ”, chociaż wydaje się, że powszechnie uważa się, że A oznacza Akaike”. Rzeczywiście, wprowadzając statystyki AIC, Akaike (1974, s. 719) wyjaśnia to "IC stands for information criterion and A is added …

47 forecasting model-selection aic bic

2

Optymalna liczba fałdów w walidacji krzyżowej krotności

Pomijając rozważania dotyczące mocy obliczeniowej, czy istnieją jakiekolwiek powody, by sądzić, że zwiększenie liczby fałdów w walidacji krzyżowej prowadzi do lepszego wyboru / walidacji modelu (tj. Że im wyższa liczba fałdów, tym lepiej)? Mówiąc skrajnie, czy wykluczająca się krzyżowa walidacja niekoniecznie prowadzi do lepszych modeli niż krzyżowa walidacja -krotnie?KKK Podstawowe …

47 cross-validation bias-variance-tradeoff

5

Interpretacja QQplot - Czy istnieje jakaś reguła, która decyduje o braku normalności?

Przeczytałem tutaj wystarczająco dużo wątków na temat QQplots, aby zrozumieć, że QQplot może być bardziej pouczający niż inne testy normalności. Jednak nie mam doświadczenia w interpretacji QQplots. Dużo googlowałem; Znalazłem wiele wykresów nietypowych wykresów QQ, ale nie ma jasnych zasad ich interpretacji, poza tym, co wydaje się być porównaniem ze …

47 interpretation normality-assumption qq-plot

5

R - QQPlot: jak sprawdzić, czy dane są zwykle dystrybuowane

Zrobiłem to po wykonaniu testu normalności Shapiro-Wilka. Test wykazał, że populacja jest zwykle podzielona. Jak jednak zobaczyć to „zachowanie” na tej fabule? AKTUALIZACJA Prosty histogram danych: AKTUALIZACJA Test Shapiro-Wilka mówi:

47 r data-visualization normal-distribution histogram qq-plot

2

Czy splajny nie pasują do danych?

Mój problem : Niedawno spotkałem statystykę, który poinformował mnie, że splajny są przydatne tylko do eksploracji danych i podlegają nadmiernemu dopasowaniu, a zatem nie są przydatne w przewidywaniu. Wolał odkrywać za pomocą prostych wielomianów ... Ponieważ jestem wielkim fanem splajnów, a to wbrew mojej intuicji, jestem zainteresowany ustaleniem, jak ważne …

47 regression splines

3

Jak znaleźć wartości szczytowe w zbiorze danych?

Jeśli mam zestaw danych, który tworzy wykres, taki jak poniżej, w jaki sposób algorytmicznie określiłbym wartości x pokazanych pików (w tym przypadku trzech z nich):

47 data-visualization mode

4

Dlaczego oczekiwanie jest takie samo jak średnia arytmetyczna?

Dzisiaj natknąłem się na nowy temat zatytułowany Oczekiwanie matematyczne. Książka, którą obserwuję, mówi: oczekiwanie jest średnią arytmetyczną zmiennej losowej pochodzącej z dowolnego rozkładu prawdopodobieństwa. Ale definiuje oczekiwanie jako sumę iloczynu niektórych danych i prawdopodobieństwa ich wystąpienia. Jak te dwie wartości (średnia i oczekiwanie) mogą być takie same? W jaki sposób …

47 expected-value

4

Jak dokonać wyboru podzbioru regresji logistycznej?

Dopasowuję dwumianową rodzinę glm w R i mam całą grupę zmiennych objaśniających i muszę znaleźć najlepsze (R-kwadrat jako miara jest w porządku). Krótko po napisaniu skryptu do przechodzenia między losowymi różnymi kombinacjami zmiennych objaśniających, a następnie nagraniu, które działa najlepiej, naprawdę nie wiem, co robić. Wydaje się, że leapsfunkcja przeskakiwania …

47 r logistic

6

Samouczek statystyki bayesowskiej

Próbuję przyspieszyć w statystykach bayesowskich. Mam trochę tła statystyk (STAT 101), ale nie za dużo - myślę, że mogę zrozumieć wcześniejsze, późniejsze i prawdopodobieństwo: D. Nie chcę jeszcze czytać podręcznika bayesowskiego. Wolałbym czytać ze źródła (preferowana strona internetowa), który szybko mnie przyspieszy. Coś w tym stylu , ale ma więcej …

47 bayesian references

5

Pierwszy kod źródłowy pakietów R do nauki w ramach przygotowań do napisania własnego pakietu

Planuję zacząć pisać paczki R. Pomyślałem, że dobrze byłoby przestudiować kod źródłowy istniejących pakietów, aby poznać konwencje budowy pakietów. Moje kryteria dobrych pakietów do nauki: Proste pomysły statystyczne / techniczne : Chodzi o poznanie mechaniki konstrukcji opakowań. Zrozumienie pakietu nie powinno wymagać szczegółowej wiedzy ściśle związanej z domeną na temat …

47 r

15

Najbardziej mylące terminy statystyczne

My, statystycy, używamy wielu słów w nieco inny sposób niż wszyscy inni. Powoduje to wiele problemów, gdy uczymy lub wyjaśniamy, co robimy. Rozpocznę listę (a teraz dodam kilka definicji, w komentarzach): Moc to zdolność do prawidłowego odrzucenia fałszywej hipotezy zerowej. Zwykle oznacza to prawidłowe powiedzenie „coś się dzieje”. Odchylenie - …

47 terminology communication

3

Czy możliwe jest grupowanie szeregów czasowych na podstawie kształtu krzywej?

Mam dane dotyczące sprzedaży dla szeregu punktów sprzedaży i chcę je kategoryzować na podstawie kształtu ich krzywych w czasie. Dane wyglądają mniej więcej tak (ale oczywiście nie są losowe i brakuje niektórych danych): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in 1:n.stores){ interval <- runif(1, …

47 r time-series clustering

7

Kiedy przeprowadzając test t, dlaczego wolałby zakładać (lub testować) równe wariancje zamiast zawsze używać przybliżenia df Welcha?

Wydaje się, że kiedy spełnione jest założenie jednorodności wariancji, wyniki skorygowanego testu t Welcha i standardowego testu t są w przybliżeniu takie same. Dlaczego po prostu nie zawsze używać dostosowanego t Welch?

47 variance t-test heteroscedasticity

14

Wyjaśnienie dotyczące interpretacji przedziałów ufności?

Moje obecne rozumienie pojęcia „przedziału ufności z poziomem ufności ” jest to, że jeśli będziemy próbowali obliczyć przedział ufności wiele razy (za każdym razem świeżą próbkę), będzie ona zawierać poprawny parametr z czas.1 - α1−α1−α1 - \alpha1−α1−α1 - \alpha Chociaż zdaję sobie sprawę, że to nie to samo, co „prawdopodobieństwo, …

47 confidence-interval