Statystyki i duże zbiory danych binary-data

1

Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?

Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

5

Jak dokonać jednoklasowej klasyfikacji tekstu?

Mam do czynienia z problemem klasyfikacji tekstu. Przeszukiwacz sieciowy indeksuje strony określonej domeny i dla każdej strony chcę dowiedzieć się, czy należy ona do jednej konkretnej klasy, czy nie. Oznacza to, że jeśli nazwiebym tę klasę jako Pozytywna , każda zaindeksowana strona internetowa należy albo do klasy Pozytywnej, albo do …

14 classification text-mining naive-bayes binary-data

1

Poszukuję przykładu analizy czynnikowej danych dychotomicznych (zmiennych binarnych) przy użyciu R.

Mam pewne dychotomiczne dane, tylko zmienne binarne, a mój szef poprosił mnie o wykonanie analizy czynnikowej z wykorzystaniem macierzy korelacji tetrachorycznych. Wcześniej byłem w stanie nauczyć się, jak przeprowadzać różne analizy na podstawie przykładów tutaj i na stronie UCLA ze statystykami i innych podobnych witryn, ale nie wydaje mi się, …

14 r factor-analysis psychometrics binary-data

1

Podział wariancji i zmiany wzdłużne w korelacji z danymi binarnymi

Analizuję dane dotyczące 300 000 uczniów w 175 szkołach za pomocą logistycznego liniowego modelu efektów mieszanych (przechwytywanie losowe). Każdy uczeń występuje dokładnie raz, a dane obejmują 6 lat. Jak podzielić wariancję między poziom szkoły i ucznia, w sposób podobny do VPC / ICC, aby uzyskać ciągłe wyniki? Widziałem ten artykuł, …

14 mixed-model binary-data

3

Jaki jest wpływ zmiennych dychotomizujących?

Jakie informacje są tracone podczas dychotomizacji zmiennych? W jaki sposób dychotomizacja pomaga w analizach?

14 regression data-transformation binary-data

2

Czy istnieje pakiet R dla ciągłych odpowiedzi binarnych wzdłuż czasu?

bildPakiet wydaje się być doskonały pakiet dla szeregowych odpowiedzi binarnych. Ale to na dyskretny czas. Chciałbym określić płynną funkcję czasu dla połączenia ilorazu szansy bieżącej odpowiedzi Y z odpowiedziami binarnymi zmierzonymi wcześniej lub przynajmniej wersją Markowa pierwszego rzędu. Uważam, że nazywa się to naprzemienną regresją logistyczną. Czy ktoś wie o …

13 r repeated-measures binary-data panel-data

1

LARS vs zejście współrzędnych dla lasso

Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Jak wybrać optymalną szerokość pojemnika podczas kalibracji modeli prawdopodobieństwa?

Tło: Istnieje kilka świetnych pytań / odpowiedzi na temat kalibracji modeli, które przewidują prawdopodobieństwo wystąpienia wyniku. Na przykład Wynik Briera i jego rozkład na rozdzielczość, niepewność i wiarygodność . Wykresy kalibracyjne i regresja izotoniczna . Metody te często wymagają zastosowania metody binowania na przewidywanych prawdopodobieństwach, dzięki czemu zachowanie wyniku (0, …

12 probability predictive-models binary-data calibration scoring-rules

4

Prognozowanie binarnych szeregów czasowych

Mam binarne szeregi czasowe z 1, gdy samochód się nie porusza, i 0, gdy samochód się porusza. Chcę zrobić prognozę dla horyzontu czasowego do 36 godzin do przodu i dla każdej godziny. Moje pierwsze podejście polegało na użyciu Naiwnego Bayesa przy użyciu następujących danych wejściowych: t-24 (codziennie sezonowo), t-48 (tygodniowo …

12 r time-series forecasting binary-data

2

optymalizacja auc vs logloss w problemach z klasyfikacją binarną

Wykonuję binarne zadanie klasyfikacyjne, w którym prawdopodobieństwo wyniku jest dość niskie (około 3%). Próbuję zdecydować, czy przeprowadzić optymalizację na podstawie AUC, czy utraty logów. O ile rozumiem, AUC maksymalizuje zdolność modelu do rozróżnienia między klasami, podczas gdy utrata logiczna karze rozbieżność między rzeczywistymi a szacowanymi prawdopodobieństwami. W moim zadaniu niezwykle …

12 classification binary-data auc log-loss

2

Probit dwustopniowy najmniejszych kwadratów (2SLS)

Powiedziano mi, że można przeprowadzić dwuetapową regresję IV, gdzie pierwszy etap to probit, a drugi etap to OLS. Czy można użyć 2SLS, jeśli pierwszy etap jest probitem, a drugi etap jest modelem probit / poissona?

12 binary-data instrumental-variables probit 2sls

3

Jak mogę sprawdzić, czy moje grupowanie danych binarnych jest znaczące

Robię analizy koszyka na zakupy. Mój zestaw danych to zbiór wektorów transakcji z produktami, które są kupowane. Kiedy stosuję k-średnich w transakcjach, zawsze otrzymam jakiś wynik. Matryca losowa prawdopodobnie pokazywałaby także niektóre skupienia. Czy istnieje sposób na sprawdzenie, czy skupienie, które znalazłem, jest znaczące, czy też może być bardzo przypadkowe. …

12 clustering statistical-significance binary-data

4

Regresja logistyczna i punkt zapalny

Mamy dane z wynikiem binarnym i niektóre zmienne towarzyszące. Użyłem regresji logistycznej do modelowania danych. Po prostu prosta analiza, nic nadzwyczajnego. Ostatecznym wyjściem ma być krzywa zależności odpowiedzi od dawki, na której pokazujemy, jak zmienia się prawdopodobieństwo dla konkretnej zmiennej towarzyszącej. Coś takiego: Otrzymaliśmy krytykę od wewnętrznego recenzenta (nie tylko …

11 regression logistic generalized-linear-model binary-data

1

R / mgcv: Dlaczego produkty tensorowe te () i ti () wytwarzają różne powierzchnie?

mgcvOpakowanie Rposiada dwie funkcje montowania interakcji produktów napinacz: te()i ti(). Rozumiem podstawowy podział pracy między nimi (dopasowanie interakcji nieliniowej vs. rozkładanie tej interakcji na główne efekty i interakcję). To, czego nie rozumiem, to dlaczego te(x1, x2)i ti(x1) + ti(x2) + ti(x1, x2)może powodować (nieznacznie) różne wyniki. MWE (dostosowany z ?ti): …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Jakiego algorytmu należy użyć, aby zgrupować ogromny binarny zestaw danych w kilka kategorii?

Mam dużą (650K wierszy * 62 kolumny) macierz danych binarnych (tylko wpisy 0-1). Matryca jest w większości rzadka: około 8% jest wypełnione. Chciałbym podzielić go na 5 grup - powiedzmy nazwanych od 1 do 5. Próbowałem zgrupować hierarchicznie i nie byłem w stanie obsłużyć rozmiaru. Użyłem również algorytmu grupowania k-średnich …

11 clustering dataset k-means binary-data

Pytania otagowane jako binary-data