Statystyki i duże zbiory danych modeling

9

Czy wyolbrzymiamy znaczenie założenia i oceny modelu w czasach, gdy analizy są często przeprowadzane przez laików

Podsumowując , im więcej dowiaduję się o statystykach, tym mniej ufam opublikowanym artykułom w mojej dziedzinie; Po prostu uważam, że naukowcy nie robią wystarczająco dobrych statystyk. Jestem laikiem, że tak powiem. Mam wykształcenie biologiczne, ale nie mam formalnego wykształcenia w dziedzinie statystyki lub matematyki. Lubię R i często staram się …

54 mathematical-statistics multiple-regression modeling

5

Zrozumienie regresji - rola modelu

W jaki sposób może posłużyć model regresji, jeśli nie znasz funkcji, dla której próbujesz uzyskać parametry? Widziałem badanie, w którym stwierdzono, że matki karmiące piersią rzadziej chorują na cukrzycę w późniejszym życiu. Badanie pochodziło z badania około 1000 matek i było kontrolowane pod kątem różnych czynników i zastosowano model logiczny. …

46 regression modeling epidemiology log-linear

8

Czy wszystkie modele są bezużyteczne? Czy jakiś dokładny model jest możliwy - czy użyteczny?

To pytanie ropieło mi w głowie od ponad miesiąca. Numer Amstat News z lutego 2015 r. Zawiera artykuł autorstwa profesora Berkeleya Marka van der Laana, który zbeształ ludzi za używanie niedokładnych modeli. Twierdzi, że przy użyciu modeli statystyka jest więc sztuką, a nie nauką. Według niego, zawsze można użyć „dokładnego …

45 machine-learning maximum-likelihood modeling nonparametric parametric

4

Ściągawka modeli statystycznych

Zastanawiałem się, czy istnieje model statystyczny „ściągawki”, który zawiera jakieś lub więcej informacji: kiedy używać modelu kiedy nie należy używać modelu wymagane i opcjonalne dane wejściowe oczekiwane wyniki czy model został przetestowany w różnych dziedzinach (polityka, bio, inżynieria, produkcja itp.)? czy jest to akceptowane w praktyce lub badaniach? oczekiwana zmiana …

44 references modeling

2

Zrozumienie parametrów wewnątrz ujemnego rozkładu dwumianowego

Starałam się dopasować swoje dane w różnych modelach i zorientowali się, że fitdistrfunkcja z biblioteki MASSz Rdaje mi Negative Binomialjak najlepszego dopasowania. Teraz ze strony wiki definicja jest podana jako: Rozkład NegBin (r, p) opisuje prawdopodobieństwo k awarii i r sukcesów w próbach k + r Bernoulli (p) z sukcesem …

37 r distributions modeling negative-binomial

5

Jakie są najlepsze praktyki w identyfikowaniu efektów interakcji?

Inne niż dosłowne testowanie każdej możliwej kombinacji zmiennych w modelu ( x1:x2lub x1*x2 ... xn-1 * xn). Jak rozpoznać, czy interakcja POWINNA lub MOŻE istnieć między zmiennymi niezależnymi (miejmy nadzieję)? Jakie są najlepsze praktyki w próbach identyfikacji interakcji? Czy istnieje technika graficzna, której możesz użyć?

35 regression modeling interaction

7

Wybór zmiennych do uwzględnienia w modelu wielokrotnej regresji liniowej

Obecnie pracuję nad zbudowaniem modelu przy użyciu wielokrotnej regresji liniowej. Po manipulowaniu moim modelem nie jestem pewien, jak najlepiej określić, które zmienne zachować, a które usunąć. Mój model zaczął się od 10 predyktorów dla DV. Przy zastosowaniu wszystkich 10 predyktorów cztery zostały uznane za znaczące. Jeśli usunę tylko niektóre z …

35 regression multiple-regression feature-selection modeling model-selection

3

Jak zamontować model ARIMAX z R?

Mam cztery różne serie czasowe pomiarów godzinnych: Zużycie ciepła w domu Temperatura na zewnątrz domu Promieniowanie słoneczne Prędkość wiatru Chcę być w stanie przewidzieć zużycie ciepła w domu. Istnieje wyraźny trend sezonowy, zarówno w ujęciu rocznym, jak i codziennym. Ponieważ istnieje wyraźna korelacja między różnymi seriami, chcę je dopasować za …

33 time-series modeling arima

1

Pytanie o negatywną regresję dwumianową - czy to zły model?

Czytam bardzo interesujący artykuł Sellersa i Shmueli na temat modeli regresji dla danych zliczania. Na początku (s. 944) przytaczają McCullaugh i Nelder (1989), twierdząc, że regresja dwumianowa jest niepopularna i ma problematyczne powiązanie kanoniczne. Znalazłem wspomniany fragment i mówi (s. 374 M i N) „Wydaje się, że w aplikacjach mało …

31 regression modeling negative-binomial

3

Dlaczego konieczny jest wybór zmiennych?

Typowe procedury wyboru zmiennych oparte na danych (na przykład do przodu, do tyłu, krokowo, wszystkie podzbiory) mają tendencję do uzyskiwania modeli o niepożądanych właściwościach, w tym: Współczynniki odchylone od zera. Błędy standardowe, które są zbyt małe, a przedziały ufności, które są zbyt wąskie. Testuj statystyki i wartości p, które nie …

31 modeling feature-selection

2

Jaki jest model statystyczny za algorytmem SVM?

Nauczyłem się, że w przypadku danych przy użyciu podejścia modelowego pierwszym krokiem jest modelowanie procedury danych jako modelu statystycznego. Następnie kolejnym krokiem jest opracowanie wydajnego / szybkiego wnioskowania / algorytmu uczenia się w oparciu o ten model statystyczny. Chcę więc zapytać, który model statystyczny stoi za algorytmem maszyny wektorowej wsparcia …

28 machine-learning svm modeling

5

Różnica między sieciami bayesowskimi a procesem Markowa?

Jaka jest różnica między Siecią Bayesowską a procesem Markowa? Wierzyłem, że rozumiem zasady obu, ale teraz, gdy muszę porównać oba, czuję się zagubiony. Znaczą dla mnie prawie to samo. Na pewno nie są. Doceniane są również linki do innych zasobów.

28 bayesian references modeling markov-process bayesian-network

1

Obliczanie powtarzalności efektów z modelu Lmer

Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Czy możliwa jest interakcja między dwiema zmiennymi ciągłymi?

Wszystkie moje zmienne są ciągłe. Nie ma poziomów. Jest to możliwe nawet mieć interakcji między zmiennymi?

27 regression modeling interaction

6

Jak wybrać pomiędzy ROC AUC a wynikiem F1?

Niedawno ukończyłem zawody Kaggle, w których stosowano wynik roc auc zgodnie z wymogami zawodów. Przed tym projektem zwykle stosowałem wynik F1 jako miarę do pomiaru wydajności modelu. Idąc dalej, zastanawiam się, jak powinienem wybrać pomiędzy tymi dwoma danymi? Kiedy stosować i jakie są ich zalety i wady? Przy okazji, przeczytałem …

26 machine-learning modeling roc scoring-rules

Pytania otagowane jako modeling