Pytania otagowane jako modeling

Ten znacznik opisuje proces tworzenia modelu statystycznego lub uczenia maszynowego. Zawsze dodawaj bardziej szczegółowy tag.


1
Uogólnione modele addytywne (GAM), interakcje i zmienne towarzyszące
Eksplorowałem szereg narzędzi do prognozowania i odkryłem, że Uogólnione Modele Addytywne (GAM) mają największy potencjał do tego celu. GRY są świetne! Pozwalają na bardzo zwięzłe określenie złożonych modeli. Jednak ta sama zwięzłość powoduje pewne zamieszanie, szczególnie w odniesieniu do tego, w jaki sposób GAM postrzegają terminy interakcji i zmienne towarzyszące. …
12 r  modeling  gam  mgcv 

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Modelowanie, gdy zmienna zależna ma „punkt odcięcia”
Z góry przepraszamy, jeśli jakakolwiek terminologia, której używam, jest niepoprawna. Z zadowoleniem przyjąłbym każdą korektę. Jeśli to, co opisuję jako „punkt odcięcia”, ma inną nazwę, daj mi znać, a mogę zaktualizować pytanie. Interesuje mnie sytuacja: masz zmienne niezależne i jedną zmienną zależną y . Pozostawię to niejasne, ale zakładam, że …

1
Kryteria wyboru „najlepszego” modelu w ukrytym modelu Markowa
Mam zestaw danych szeregów czasowych, do którego próbuję dopasować ukryty model Markowa (HMM) w celu oszacowania liczby stanów ukrytych w danych. Mój pseudo-kod do tego jest następujący: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } Teraz, …

1
Różnice między PROC Mixed i lme / lmer w R - stopnie swobody
Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 


1
Dokładny test Fishera i rozkład hipergeometryczny
Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …

1
dopasowanie funkcji wykładniczej przy użyciu najmniejszych kwadratów vs. uogólnionego modelu liniowego vs. nieliniowych najmniejszych kwadratów
Mam zestaw danych, który reprezentuje rozkład wykładniczy. Chciałbym dopasować funkcję wykładniczą do tych danych. Próbowałem log przekształcić zmienną odpowiedzi, a następnie użyć najmniejszych kwadratów, aby dopasować linię; z zastosowaniem uogólnionego modelu liniowego z funkcją logarytmiczną i rozkładem gamma wokół zmiennej odpowiedzi; i używając nieliniowych najmniejszych kwadratów. Otrzymuję inną odpowiedź dla …

4
Zaloguj modele liniowe
Czy ktoś może wyjaśnić, dlaczego używamy logarytmicznych modeli liniowych w kategoriach zwykłych ludzi? Pochodzę z wykształcenia inżynierskiego, a to naprawdę okazuje się dla mnie trudnym przedmiotem, to znaczy statystykami. Będę wdzięczny za odpowiedź.


5
Mierzenie regresji do średniej w trafianiu do domu
Każdy, kto podąży za baseballem, prawdopodobnie słyszał o nieoczekiwanym występie Jose Bautisty w Toronto typu MVP. W ciągu czterech poprzednich lat osiągnął około 15 przebiegów u siebie w sezonie. W zeszłym roku osiągnął 54 lata, a liczba ta przekroczyła zaledwie 12 graczy w historii baseballu. W 2010 roku wypłacono mu …
11 r  regression  modeling 

10
Dlaczego oprócz przewidywania budowy modeli?
Joshua Epstein napisał artykuł zatytułowany „Dlaczego model?” dostępny pod adresem http://www.santafe.edu/media/workingpapers/08-09-040.pdf, w którym podano 16 powodów: Wyjaśnij (bardzo różni się od przewidywania) Przewodnik gromadzenia danych Oświetl dynamikę rdzenia Zaproponuj dynamiczne analogie Odkryj nowe pytania Promuj naukowy nawyk umysłu Związane (przedziały) wyniki z prawdopodobnymi zakresami Rozświetl niepewności rdzenia. Oferuj opcje kryzysowe …
11 modeling 

1
R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

7
Unikanie dyskryminacji społecznej w budowaniu modeli
Mam pytania inspirowane niedawnym skandalem rekrutacyjnym w Amazon, w którym oskarżano ich o dyskryminację kobiet w procesie rekrutacji. Więcej informacji tutaj : Specjaliści od uczenia maszynowego Amazon.com Inc odkryli duży problem: ich nowy silnik rekrutacyjny nie lubił kobiet. Zespół buduje programy komputerowe od 2014 roku, aby przejrzeć CV kandydatów do …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.