Pytania otagowane jako binary-data

Zmienna binarna przyjmuje jedną z dwóch wartości, zwykle zakodowanych jako „0” i „1”.

1
Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?
Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 


1
Poszukuję przykładu analizy czynnikowej danych dychotomicznych (zmiennych binarnych) przy użyciu R.
Mam pewne dychotomiczne dane, tylko zmienne binarne, a mój szef poprosił mnie o wykonanie analizy czynnikowej z wykorzystaniem macierzy korelacji tetrachorycznych. Wcześniej byłem w stanie nauczyć się, jak przeprowadzać różne analizy na podstawie przykładów tutaj i na stronie UCLA ze statystykami i innych podobnych witryn, ale nie wydaje mi się, …

1
Podział wariancji i zmiany wzdłużne w korelacji z danymi binarnymi
Analizuję dane dotyczące 300 000 uczniów w 175 szkołach za pomocą logistycznego liniowego modelu efektów mieszanych (przechwytywanie losowe). Każdy uczeń występuje dokładnie raz, a dane obejmują 6 lat. Jak podzielić wariancję między poziom szkoły i ucznia, w sposób podobny do VPC / ICC, aby uzyskać ciągłe wyniki? Widziałem ten artykuł, …


2
Czy istnieje pakiet R dla ciągłych odpowiedzi binarnych wzdłuż czasu?
bildPakiet wydaje się być doskonały pakiet dla szeregowych odpowiedzi binarnych. Ale to na dyskretny czas. Chciałbym określić płynną funkcję czasu dla połączenia ilorazu szansy bieżącej odpowiedzi Y z odpowiedziami binarnymi zmierzonymi wcześniej lub przynajmniej wersją Markowa pierwszego rzędu. Uważam, że nazywa się to naprzemienną regresją logistyczną. Czy ktoś wie o …

1
LARS vs zejście współrzędnych dla lasso
Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …

2
Jak wybrać optymalną szerokość pojemnika podczas kalibracji modeli prawdopodobieństwa?
Tło: Istnieje kilka świetnych pytań / odpowiedzi na temat kalibracji modeli, które przewidują prawdopodobieństwo wystąpienia wyniku. Na przykład Wynik Briera i jego rozkład na rozdzielczość, niepewność i wiarygodność . Wykresy kalibracyjne i regresja izotoniczna . Metody te często wymagają zastosowania metody binowania na przewidywanych prawdopodobieństwach, dzięki czemu zachowanie wyniku (0, …

4
Prognozowanie binarnych szeregów czasowych
Mam binarne szeregi czasowe z 1, gdy samochód się nie porusza, i 0, gdy samochód się porusza. Chcę zrobić prognozę dla horyzontu czasowego do 36 godzin do przodu i dla każdej godziny. Moje pierwsze podejście polegało na użyciu Naiwnego Bayesa przy użyciu następujących danych wejściowych: t-24 (codziennie sezonowo), t-48 (tygodniowo …

2
optymalizacja auc vs logloss w problemach z klasyfikacją binarną
Wykonuję binarne zadanie klasyfikacyjne, w którym prawdopodobieństwo wyniku jest dość niskie (około 3%). Próbuję zdecydować, czy przeprowadzić optymalizację na podstawie AUC, czy utraty logów. O ile rozumiem, AUC maksymalizuje zdolność modelu do rozróżnienia między klasami, podczas gdy utrata logiczna karze rozbieżność między rzeczywistymi a szacowanymi prawdopodobieństwami. W moim zadaniu niezwykle …


3
Jak mogę sprawdzić, czy moje grupowanie danych binarnych jest znaczące
Robię analizy koszyka na zakupy. Mój zestaw danych to zbiór wektorów transakcji z produktami, które są kupowane. Kiedy stosuję k-średnich w transakcjach, zawsze otrzymam jakiś wynik. Matryca losowa prawdopodobnie pokazywałaby także niektóre skupienia. Czy istnieje sposób na sprawdzenie, czy skupienie, które znalazłem, jest znaczące, czy też może być bardzo przypadkowe. …

4
Regresja logistyczna i punkt zapalny
Mamy dane z wynikiem binarnym i niektóre zmienne towarzyszące. Użyłem regresji logistycznej do modelowania danych. Po prostu prosta analiza, nic nadzwyczajnego. Ostatecznym wyjściem ma być krzywa zależności odpowiedzi od dawki, na której pokazujemy, jak zmienia się prawdopodobieństwo dla konkretnej zmiennej towarzyszącej. Coś takiego: Otrzymaliśmy krytykę od wewnętrznego recenzenta (nie tylko …

1
R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?
mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Jakiego algorytmu należy użyć, aby zgrupować ogromny binarny zestaw danych w kilka kategorii?
Mam dużą (650K wierszy * 62 kolumny) macierz danych binarnych (tylko wpisy 0-1). Matryca jest w większości rzadka: około 8% jest wypełnione. Chciałbym podzielić go na 5 grup - powiedzmy nazwanych od 1 do 5. Próbowałem zgrupować hierarchicznie i nie byłem w stanie obsłużyć rozmiaru. Użyłem również algorytmu grupowania k-średnich …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.