Statystyki i duże zbiory danych

Pytania i odpowiedzi dla osób zainteresowanych statystyką, uczeniem maszynowym, analizą danych, eksploracją danych i wizualizacją danych

7
Wykres zależności między dwiema zmiennymi porządkowymi
Jaki jest odpowiedni wykres ilustrujący związek między dwiema zmiennymi porządkowymi? Kilka opcji, o których mogę myśleć: Wykres rozproszenia z dodanym drganiami losowymi, aby zatrzymać ukrywanie się punktów. Niby standardowa grafika - Minitab nazywa to „wykresem wartości indywidualnych”. Moim zdaniem może to być mylące, ponieważ wizualnie zachęca do pewnego rodzaju interpolacji …

8
Pułapki w analizie szeregów czasowych
Zaczynam dopiero od samodzielnego uczenia się w analizie szeregów czasowych. Zauważyłem, że istnieje wiele potencjalnych pułapek, które nie mają zastosowania do statystyk ogólnych. Opierając się na czym są powszechne grzechy statystyczne? , Chciałbym spytać: Jakie są typowe pułapki lub grzechy statystyczne w analizie szeregów czasowych? To jest zamierzone jako wiki …

2
Intuicja stojąca za tym, dlaczego paradoks Stein'a dotyczy tylko wymiarów
Przykład Steina pokazuje, że oszacowanie maksymalnego prawdopodobieństwa nnn zmiennych o rozkładzie normalnym ze średnimi μ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n i wariancjami 111 jest niedopuszczalne (pod funkcją straty kwadratowej) iff n≥3n≥3n\ge 3 . Aby uzyskać dobry dowód, zobacz pierwszy rozdział Wnioskowania na dużą skalę: empiryczne metody Bayesa do szacowania, testowania i przewidywania autorstwa Bradleya Effrona. …


5
Jak obliczyć pseudo
Opis Christophera Manninga dotyczący regresji logistycznej w R pokazuje regresję logistyczną w R w następujący sposób: ced.logr <- glm(ced.del ~ cat + follows + factor(class), family=binomial) Niektóre dane wyjściowe: > summary(ced.logr) Call: glm(formula = ced.del ~ cat + follows + factor(class), family = binomial("logit")) Deviance Residuals: Min 1Q Median 3Q …

5
Zrozumienie regresji - rola modelu
W jaki sposób może posłużyć model regresji, jeśli nie znasz funkcji, dla której próbujesz uzyskać parametry? Widziałem badanie, w którym stwierdzono, że matki karmiące piersią rzadziej chorują na cukrzycę w późniejszym życiu. Badanie pochodziło z badania około 1000 matek i było kontrolowane pod kątem różnych czynników i zastosowano model logiczny. …


1
Zrozumienie „prawie wszystkie lokalne minimum mają bardzo podobną wartość funkcji do globalnego optimum”
W ostatnim poście na blogu Rong Ge powiedziano, że: Uważa się, że w przypadku wielu problemów, w tym uczenia się sieci głębokich, prawie wszystkie lokalne minimum mają bardzo podobną wartość funkcji do globalnego optimum, a zatem znalezienie lokalnego minimum jest wystarczające. Skąd się bierze ta wiara?

1
Rozbieżność KL między dwoma wielowymiarowymi gaussami
Mam problem z wyprowadzeniem formuły dywergencji KL przy założeniu dwóch normalnych rozkładów wielowymiarowych. Zrobiłem przypadek jednoznaczny dość łatwo. Minęło jednak sporo czasu, odkąd wziąłem statystyki matematyczne, więc mam problem z rozszerzeniem go na przypadek wielowymiarowy. Jestem pewien, że brakuje mi czegoś prostego. Oto co mam ... Załóżmy, że zarówno jak …




6
Jakie są alternatywy Gradient Descent?
Zejście z gradientem ma problem z utknięciem w lokalnych minimach. Musimy uruchomić czasy wykładnicze spadku gradientu, aby znaleźć globalne minima. Czy ktoś może mi powiedzieć o jakichkolwiek alternatywach gradientu zejścia stosowanych w uczeniu się sieci neuronowej, a także o ich zaletach i wadach.

3
Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie
Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
Skąd bierze się błędne przekonanie, że Y musi być normalnie dystrybuowane?
Pozornie renomowane źródła twierdzą, że zmienna zależna musi być normalnie dystrybuowana: Założenia modelu: YYY jest normalnie rozłożone, błędy są normalnie rozłożone, ei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2) i niezależne, a XXX jest stały, a stała wariancja σ2σ2\sigma^2 . Penn State, STAT 504 Analiza danych dyskretnych Po drugie, analiza regresji liniowej wymaga, aby wszystkie …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.