Statystyki i duże zbiory danych survival

8

Wygeneruj zmienną losową ze zdefiniowaną korelacją z istniejącą zmienną (zmiennymi)

Dla badań symulacyjnych mam do generowania zmiennych losowych, które wykazują prefined (populacji) korelację do istniejącej zmiennej .YYY I spojrzał w Ropakowaniach copula, a CDVinektóre mogą powodować przypadkowe wielowymiarowych rozkładów danej struktury zależności. Nie można jednak naprawić jednej z powstałych zmiennych do istniejącej zmiennej. Wszelkie pomysły i linki do istniejących funkcji …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

8

Jak określić prawdopodobieństwo awarii, jeśli nie wystąpiły awarie?

Zastanawiałem się, czy istnieje sposób na określenie prawdopodobieństwa wystąpienia awarii (produktu), jeśli mamy 100 000 produktów w terenie przez 1 rok i bez żadnych awarii? Jakie jest prawdopodobieństwo, że jeden z następnych 10 000 sprzedanych produktów zawiedzie?

50 probability survival binomial

7

Narzędzia analizy przeżycia w Pythonie [zamknięte]

Zastanawiam się, czy są jakieś pakiety dla Pythona, które są w stanie przeprowadzić analizę przeżycia. Korzystam z pakietu przetrwania w R, ale chciałbym przenieść moją pracę do Pythona.

46 survival python

5

Prognozy w regresji Coxa

Robię wielowymiarową regresję Coxa, mam swoje znaczące zmienne niezależne i wartości beta. Model bardzo dobrze pasuje do moich danych. Teraz chciałbym użyć mojego modelu i przewidzieć przetrwanie nowej obserwacji. Nie jestem pewien, jak to zrobić za pomocą modelu Coxa. W regresji liniowej lub logistycznej byłoby łatwo, po prostu wstawić wartości …

38 regression survival prediction cox-model

10

Dlaczego zakłada się, że czasy przeżycia rozkładają się wykładniczo?

Uczę się analizy przeżycia z tego postu na UCLA IDRE i potknąłem się w sekcji 1.2.1. Samouczek mówi: ... jeśli wiadomo, że czasy przeżycia są rozkładane wykładniczo , to prawdopodobieństwo zaobserwowania czasu przeżycia ... Dlaczego zakłada się, że czasy przeżycia rozkładają się wykładniczo? Wydaje mi się to bardzo nienaturalne. Dlaczego …

36 distributions survival assumptions exponential

14

Referencje do analizy przeżycia

Szukam dobrej książki / samouczka, aby dowiedzieć się o analizie przeżycia. Interesują mnie również referencje dotyczące przeprowadzania analizy przeżycia w języku R.

33 r survival references

3

Jakiej dystrybucji podlegają moje dane?

Powiedzmy, że mam 1000 komponentów i zbieram dane o tym, ile razy rejestrują awarię i za każdym razem, gdy logują awarię, śledzę również, ile czasu zajęło mojemu zespołowi usunięcie problemu. Krótko mówiąc, rejestrowałem czas naprawy (w sekundach) dla każdego z tych 1000 elementów. Dane podano na końcu tego pytania. Wziąłem …

31 distributions data-visualization survival reliability distribution-identification

5

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Czy stopnie swobody mogą być liczbą niecałkowitą?

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

2

Dlaczego w analizie przeżycia używamy modeli półparametrycznych (proporcjonalne zagrożenia Coxa) zamiast modeli w pełni parametrycznych?

To pytanie zostało przeniesione z Mathematics Stack Exchange, ponieważ można na nie odpowiedzieć podczas weryfikacji krzyżowej. Migrował 6 lat temu . Studiowałem model Cox Proporcjonalnych Zagrożeń i to pytanie jest przerzucone w większości tekstów. Cox zaproponował dopasowanie współczynników funkcji Hazard przy użyciu metody częściowego prawdopodobieństwa, ale dlaczego nie po prostu …

24 survival cox-model

2

Analiza bayesowskiego przeżycia: proszę, napisz do mnie wcześniej dla Kaplana Meiera!

Rozważ obserwacje dobrze ocenzurowane z wydarzeniami czasami . Liczba podatnych osobników w czasie wynosi , a liczba zdarzeń w czasie wynosi .t1, t2), …t1,t2,…t_1, t_2, \dotsn I I d Ijaiinjanin_ijaiirejadid_i Kaplan-Meier lub estymator produktu powstaje naturalnie jako MLE, gdy funkcja przeżycia jest funkcją krokową . Prawdopodobieństwo to a MLE to …

20 bayesian survival kaplan-meier

4

Jakie są prawidłowe wartości precyzji i przywołania w przypadkach krawędzi?

Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

4

Analiza przeżycia: czas ciągły vs dyskretny

Nie jestem pewien, jak zdecydować, czy traktować czas jako ciągły czy dyskretny w analizie przeżycia. W szczególności chcę użyć analizy przeżycia, aby zidentyfikować zmienne na poziomie dziecka i gospodarstwa domowego, które mają największą rozbieżność w ich wpływie na przeżycie chłopców i dziewcząt (do 5 roku życia). Mam zestaw danych dotyczących …

20 survival ties

2

Jaka jest wartość „

Jaka jest wartość podana w podsumowaniu modelu Coxpha w R? Na przykład,R2)R2R^2 Rsquare= 0.186 (max possible= 0.991 ) Głupio włączyłem go jako wartość a recenzent wskoczył na niego, mówiąc, że nie jest świadomy analogii statystyki z klasycznej regresji liniowej opracowanej dla modelu Coxa, a jeśli był, to proszę podać odniesienie. …

18 r survival r-squared cox-model

3

Imputacja przed lub po podziale na pociąg i test?

Mam zestaw danych z N ~ 5000 i brakuje mi około 1/2 co najmniej jednej ważnej zmiennej. Główną metodą analityczną będą proporcjonalne zagrożenia Coxa. Planuję zastosować wielokrotne przypisanie. Podzielę się również na pociąg i zestaw testowy. Czy należy podzielić dane, a następnie przypisać osobno, czy przypisać, a następnie podzielić? Jeżeli …

18 cross-validation survival multiple-imputation train

Pytania otagowane jako survival