Statystyki i duże zbiory danych modeling

1

Ścieżki współczynników - porównanie regresji grzbietu, lassa i siatki elastycznej

Chciałbym porównać modele wybrane z kalenicą, lasso i elastyczną siatką. Ryc. Poniżej pokazuje ścieżki współczynników przy użyciu wszystkich 3 metod: grzbietu (ryc. A, alfa = 0), lasso (ryc. B; alfa = 1) i elastycznej siatki (ryc. C; alfa = 0,5). Optymalne rozwiązanie zależy od wybranej wartości lambda, która jest wybierana …

13 r multiple-regression modeling regularization

1

Uogólnione modele addytywne (GAM), interakcje i zmienne towarzyszące

Eksplorowałem szereg narzędzi do prognozowania i odkryłem, że Uogólnione Modele Addytywne (GAM) mają największy potencjał do tego celu. GRY są świetne! Pozwalają na bardzo zwięzłe określenie złożonych modeli. Jednak ta sama zwięzłość powoduje pewne zamieszanie, szczególnie w odniesieniu do tego, w jaki sposób GAM postrzegają terminy interakcji i zmienne towarzyszące. …

12 r modeling gam mgcv

5

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Modelowanie, gdy zmienna zależna ma „punkt odcięcia”

Z góry przepraszamy, jeśli jakakolwiek terminologia, której używam, jest niepoprawna. Z zadowoleniem przyjąłbym każdą korektę. Jeśli to, co opisuję jako „punkt odcięcia”, ma inną nazwę, daj mi znać, a mogę zaktualizować pytanie. Interesuje mnie sytuacja: masz zmienne niezależne i jedną zmienną zależną y . Pozostawię to niejasne, ale zakładam, że …

12 regression modeling survival censoring

1

Kryteria wyboru „najlepszego” modelu w ukrytym modelu Markowa

Mam zestaw danych szeregów czasowych, do którego próbuję dopasować ukryty model Markowa (HMM) w celu oszacowania liczby stanów ukrytych w danych. Mój pseudo-kod do tego jest następujący: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } Teraz, …

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

1

Różnice między PROC Mixed i lme / lmer w R - stopnie swobody

Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

2

Modelowanie parametryczne wariancji danych zliczeniowych

Szukam do modelowania niektórych danych, ale nie jestem pewien, jakiego rodzaju modelu mogę użyć. Mam dane zliczania i chcę model, który da parametryczne oszacowania zarówno średniej, jak i wariancji danych. Oznacza to, że mam różne czynniki predykcyjne i chcę ustalić, czy którykolwiek z nich wpływa na wariancję (nie tylko średnią …

12 variance modeling count-data overdispersion gamlss

1

Dokładny test Fishera i rozkład hipergeometryczny

Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

dopasowanie funkcji wykładniczej przy użyciu najmniejszych kwadratów vs. uogólnionego modelu liniowego vs. nieliniowych najmniejszych kwadratów

Mam zestaw danych, który reprezentuje rozkład wykładniczy. Chciałbym dopasować funkcję wykładniczą do tych danych. Próbowałem log przekształcić zmienną odpowiedzi, a następnie użyć najmniejszych kwadratów, aby dopasować linię; z zastosowaniem uogólnionego modelu liniowego z funkcją logarytmiczną i rozkładem gamma wokół zmiennej odpowiedzi; i używając nieliniowych najmniejszych kwadratów. Otrzymuję inną odpowiedź dla …

12 modeling generalized-linear-model least-squares nonlinear-regression curve-fitting

4

Zaloguj modele liniowe

Czy ktoś może wyjaśnić, dlaczego używamy logarytmicznych modeli liniowych w kategoriach zwykłych ludzi? Pochodzę z wykształcenia inżynierskiego, a to naprawdę okazuje się dla mnie trudnym przedmiotem, to znaczy statystykami. Będę wdzięczny za odpowiedź.

12 modeling log-linear

1

Kiedy muszę przestać szukać modelu?

Szukam modelu między cenami energii a pogodą. Mam cenę MWatt kupioną między krajami Europy i wiele wartości pogodowych (pliki Grib). Co godzinę przez okres 5 lat (2011-2015). Cena za dzień To jest dziennie przez jeden rok. Mam to na godziny przez 5 lat. Przykład pogody 3Dscatterplot, w kelwinach, przez godzinę. …

11 time-series forecasting predictive-models modeling large-data

5

Mierzenie regresji do średniej w trafianiu do domu

Każdy, kto podąży za baseballem, prawdopodobnie słyszał o nieoczekiwanym występie Jose Bautisty w Toronto typu MVP. W ciągu czterech poprzednich lat osiągnął około 15 przebiegów u siebie w sezonie. W zeszłym roku osiągnął 54 lata, a liczba ta przekroczyła zaledwie 12 graczy w historii baseballu. W 2010 roku wypłacono mu …

11 r regression modeling

10

Dlaczego oprócz przewidywania budowy modeli?

Joshua Epstein napisał artykuł zatytułowany „Dlaczego model?” dostępny pod adresem http://www.santafe.edu/media/workingpapers/08-09-040.pdf, w którym podano 16 powodów: Wyjaśnij (bardzo różni się od przewidywania) Przewodnik gromadzenia danych Oświetl dynamikę rdzenia Zaproponuj dynamiczne analogie Odkryj nowe pytania Promuj naukowy nawyk umysłu Związane (przedziały) wyniki z prawdopodobnymi zakresami Rozświetl niepewności rdzenia. Oferuj opcje kryzysowe …

11 modeling

1

R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?

mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

7

Unikanie dyskryminacji społecznej w budowaniu modeli

Mam pytania inspirowane niedawnym skandalem rekrutacyjnym w Amazon, w którym oskarżano ich o dyskryminację kobiet w procesie rekrutacji. Więcej informacji tutaj : Specjaliści od uczenia maszynowego Amazon.com Inc odkryli duży problem: ich nowy silnik rekrutacyjny nie lubił kobiet. Zespół buduje programy komputerowe od 2014 roku, aby przejrzeć CV kandydatów do …

10 predictive-models modeling model

Pytania otagowane jako modeling