Statystyki i duże zbiory danych

2

Kiedy (i dlaczego) należy wziąć dziennik rozkładu (liczb)?

Powiedzmy, że mam pewne dane historyczne, np. Poprzednie ceny akcji, wahania cen biletów lotniczych, przeszłe dane finansowe firmy ... Teraz pojawia się ktoś (lub jakaś formuła) i mówi: „weźmy / wykorzystaj dziennik dystrybucji” i oto gdzie idę DLACZEGO ? Pytania: DLACZEGO przede wszystkim należy wziąć dziennik dystrybucji? CO dziennik dystrybucji …

173 distributions data-transformation logarithm

4

Jak interpretować wykres QQ

Pracuję z małym zestawem danych (21 obserwacji) i mam następujący normalny wykres QQ w R: Widząc, że fabuła nie obsługuje normalności, co mogę wnioskować o rozkładzie podstawowym? Wydaje mi się, że rozkład bardziej przesunięty w prawo byłby lepszym rozwiązaniem, prawda? Jakie inne wnioski możemy wyciągnąć z danych?

172 r data-visualization inference qq-plot

9

Skąd ta nagła fascynacja tensorami?

Zauważyłem ostatnio, że wiele osób opracowuje ekwiwalenty tensora wielu metod (faktoryzacja tensora, jądra tensora, tensory do modelowania tematów itp.) Zastanawiam się, dlaczego świat jest nagle zafascynowany tensorami? Czy pojawiły się ostatnio ostatnie artykuły / standardowe wyniki, które są szczególnie zaskakujące? Czy jest obliczeniowo dużo tańszy niż wcześniej podejrzewano? Nie jestem …

171 machine-learning references matrix linear-algebra tensor

3

Kiedy powinienem używać lasso kontra grzbiet?

Powiedzmy, że chcę oszacować dużą liczbę parametrów i chcę ukarać niektóre z nich, ponieważ uważam, że powinny one mieć niewielki wpływ w porównaniu z innymi. Jak zdecydować, jakiego schematu kary użyć? Kiedy regresja kalenicy jest bardziej odpowiednia? Kiedy powinienem używać lasso?

167 regression lasso ridge-regression

30

Statystyki żarty

Mamy ulubione cytaty statystyczne. A co ze statystykami?

165 references humor

8

Kiedy w regresji liniowej należy zastosować log zmiennej niezależnej zamiast wartości rzeczywistych?

Czy szukam lepszego zachowania dla danej zmiennej niezależnej, czy też ograniczenia efektu wartości odstających, czy czegoś innego?

164 regression distributions data-transformation logarithm regression-strategies

8

Jak radzić sobie z idealną separacją w regresji logistycznej?

Jeśli masz zmienną, która doskonale oddziela zera i jedynki w zmiennej docelowej, R wyświetli następujący komunikat ostrzegawczy „idealna lub quasi idealna separacja”: Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred Nadal otrzymujemy model, ale szacunki współczynników są zawyżone. Jak sobie z tym radzisz w praktyce?

163 r regression logistic separation

21

Czy Julia ma jakąkolwiek nadzieję na pozostanie w społeczności statystycznej?

Niedawno przeczytałem post od R-Bloggerów, który zawiera link do tego postu na blogu od Johna Mylesa White'a na temat nowego języka o nazwie Julia . Julia korzysta z kompilatora „just-in-time”, który zapewnia niesamowity szybki czas działania i ustawia go na tym samym rzędzie wielkości co C / C ++ (ta …

161 r computational-statistics software computing julia

3

Ściąglejszy ściągacz R.

Na tym forum toczy się wiele dyskusji na temat właściwego sposobu określania różnych modeli hierarchicznych lmer. Pomyślałem, że wspaniale byłoby mieć wszystkie informacje w jednym miejscu. Kilka pytań na początek: Jak określić wiele poziomów, gdzie jedna grupa jest zagnieżdżony w drugiej: jest to (1|group1:group2)albo (1+group1|group2)? Jaka jest różnica między (~1 …

160 r mixed-model random-effects-model fixed-effects-model lme4-nlme

3

ROC vs krzywe precyzji i przywołania

Rozumiem formalne różnice między nimi, chcę wiedzieć, kiedy bardziej odpowiednie jest użycie jednego kontra drugiego. Czy zawsze zapewniają komplementarny wgląd w działanie danego systemu klasyfikacji / wykrywania? Kiedy uzasadnione jest podanie ich obu, powiedzmy, w formie papierowej? zamiast tylko jednego? Czy istnieją jakieś alternatywne (być może bardziej nowoczesne) deskryptory, które …

159 machine-learning roc precision-recall

2

Jak uzyskać liczbę wierszy ramki data.frame w języku R? [Zamknięte]

Po przeczytaniu zestawu danych: dataset <- read.csv("forR.csv") Jak mogę sprawić, by R podał mi liczbę skrzynek, które zawiera? Czy zwrócona wartość obejmie również przypadki wykluczenia pominięte w na.omit(dataset)?

157 r

2

Generatywne a dyskryminujące

Wiem, że generatywny oznacza „oparty na P.( x , y)P.(x,r)P(x,y) ”, a dyskryminujący oznacza „oparty na P.( y| x)P.(r|x)P(y|x) ”, ale jestem zdezorientowany w kilku kwestiach: Wikipedia (+ wiele innych trafień w sieci) klasyfikuje takie rzeczy jak maszyny SVM i drzewa decyzyjne jako dyskryminujące. Ale nie mają nawet probabilistycznych interpretacji. …

153 machine-learning generative-models

7

PCA o korelacji lub kowariancji?

Jakie są główne różnice między przeprowadzaniem analizy składowych głównych (PCA) na macierzy korelacji a macierzą kowariancji? Czy dają takie same wyniki?

153 correlation pca covariance factor-analysis

6

Czy wartość rozkładu prawdopodobieństwa przekraczająca 1 może być OK?

Na stronie Wikipedii o naiwnych klasyfikatorach Bayesa znajduje się następujący wiersz: p(height|male)=1.5789p(hmijasolht|mzalmi)=1,5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (rozkład prawdopodobieństwa na 1 jest OK. Jest to obszar pod krzywą dzwonową równy 1.) Jak wartość być OK? Myślałem, że wszystkie wartości prawdopodobieństwa zostały wyrażone w zakresie . Ponadto, biorąc pod uwagę, że można mieć taką …

149 distributions probability normal-distribution pdf

6

Jak wybrać model predykcyjny po k-krotnej walidacji krzyżowej?

Zastanawiam się, jak wybrać model predykcyjny po przeprowadzeniu krzyżowej weryfikacji K-fold. Może to być niezręcznie sformułowane, więc pozwól mi wyjaśnić bardziej szczegółowo: za każdym razem, gdy uruchamiam K-krotnie weryfikację krzyżową, używam K podzbiorów danych treningowych i kończę na K różnych modelach. Chciałbym wiedzieć, jak wybrać jeden z modeli K, aby …

148 cross-validation model-selection