Statystyki i duże zbiory danych censoring

3

Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Czy mamy problem z „litością przychylną”?

Wiem, może to zabrzmieć nie na temat, ale wysłuchaj mnie. W Stack Overflow i tutaj otrzymujemy głosy na posty, wszystko to jest przechowywane w formie tabelarycznej. Na przykład: post id identyfikator wyborcy typ głosowania datetime ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 …

51 time-series hypothesis-testing data-mining markov-process censoring

3

Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?

Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

2

Jaka jest różnica między cenzurą a obcięciem?

W książce Modele statystyczne i metody dożywotnich danych napisano: Ocenzurowanie: Gdy obserwacja jest niekompletna z jakiejś przypadkowej przyczyny. Obcinanie: gdy niekompletny charakter obserwacji wynika z systematycznego procesu selekcji właściwego dla projektu badania. Co rozumie się przez „systematyczny proces selekcji nieodłączny od projektu badania” w definicji skrótu? Jaka jest różnica między …

30 self-study censoring truncation

3

Jak modelować ten dziwny rozkład (prawie odwrotny J)

Moja zmienna zależna pokazana poniżej nie pasuje do żadnej znanej mi dystrybucji. Regresja liniowa wytwarza nieco nienormalne, wypaczone w prawo resztki, które w dziwny sposób odnoszą się do przewidywanego Y (drugi wykres). Wszelkie sugestie dotyczące transformacji lub innych sposobów uzyskania najbardziej aktualnych wyników i najlepszej dokładności predykcyjnej? Jeśli to możliwe, …

25 regression multiple-regression data-transformation censoring

3

Bezstronna ocena macierzy kowariancji dla wielokrotnie cenzurowanych danych

Analizy chemiczne próbek środowiskowych są często cenzurowane poniżej limitów sprawozdawczych lub różnych limitów wykrywalności / ilościowych. Te ostatnie mogą się różnić, zwykle proporcjonalnie do wartości innych zmiennych. Na przykład, próbka o wysokim stężeniu jednego związku może wymagać rozcieńczenia do analizy, co spowoduje proporcjonalne zawyżenie limitów cenzury dla wszystkich innych związków …

22 correlation estimation censoring covariance-matrix unbiased-estimator

4

Jakie są prawidłowe wartości precyzji i przywołania w przypadkach krawędzi?

Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

1

Co to jest „Docelowe oczekiwane maksymalne prawdopodobieństwo”?

Próbuję zrozumieć niektóre artykuły Marka van der Laana. Jest teoretycznym statystykiem w Berkeley, pracującym nad problemami, które w znacznym stopniu pokrywają się z uczeniem maszynowym. Jednym z problemów dla mnie (poza głęboką matematyką) jest to, że często kończy się opisywaniem znanych metod uczenia maszynowego przy użyciu zupełnie innej terminologii. Jedną …

15 mathematical-statistics estimation nonparametric autocorrelation censoring

5

Czym dokładnie są dane cenzurowane?

Przeczytałem różne opisy cenzurowanych danych: A) Jak wyjaśniono w tym wątku, dane niekwantowane poniżej lub powyżej pewnego progu są cenzurowane. Nieoznaczony oznacza, że dane są powyżej lub poniżej pewnego progu, ale nie znamy dokładnej wartości. Dane są następnie oznaczane przy niskiej lub wysokiej wartości progowej w modelu regresji. Pasuje do …

14 regression terminology censoring

2

Wyjaśnienie laika dotyczące cenzury w analizie przeżycia

Czytałem o tym, czym jest cenzura i jak należy ją uwzględnić w analizie przeżycia, ale chciałbym usłyszeć jej mniej matematyczną definicję i bardziej intuicyjną definicję (zdjęcia byłyby świetne!). Czy ktoś może mi wyjaśnić 1) cenzurę i 2) w jaki sposób wpływa to na krzywe Kaplana-Meiera i regresję Coxa?

13 survival cox-model censoring

1

Modelowanie, gdy zmienna zależna ma „punkt odcięcia”

Z góry przepraszamy, jeśli jakakolwiek terminologia, której używam, jest niepoprawna. Z zadowoleniem przyjąłbym każdą korektę. Jeśli to, co opisuję jako „punkt odcięcia”, ma inną nazwę, daj mi znać, a mogę zaktualizować pytanie. Interesuje mnie sytuacja: masz zmienne niezależne i jedną zmienną zależną y . Pozostawię to niejasne, ale zakładam, że …

12 regression modeling survival censoring

2

Odchylenie w średnim wieku dla kwalifikacji tytułu arcymistrza według grup wiekowych?

Od dłuższego czasu wiadomo, że najmłodszy wiek, w którym szachistom udało się zakwalifikować do tytułu arcymistrza, znacznie się zmniejszył od lat 50. XX wieku, a obecnie prawie 30 graczy zostało arcymistrzem przed 15. urodzinami . Jednak na Chess Stack Exchange pojawia się pytanie: Jaki jest średni wiek, aby zostać arcymistrzem? …

11 survival bias population censoring subset

1

Korzystanie ze standardowych narzędzi uczenia maszynowego na danych ocenzurowanych po lewej stronie

Zajmuję się tworzeniem aplikacji do prognozowania, której celem jest umożliwienie importerowi prognozowania popytu na jego produkty z sieci klientów-dystrybutorów. Dane dotyczące sprzedaży są dość dobrym wskaźnikiem popytu, o ile istnieją odpowiednie zapasy, aby zaspokoić popyt. Kiedy jednak zapasy są zmniejszane do zera (sytuacja, w której staramy się pomóc naszemu klientowi …

11 r regression machine-learning censoring

2

Cenzura / Obcięcie w JAGS

Mam pytanie, jak dopasować problem cenzury do JAGS. Obserwuję normalną dwuwymiarową mieszaninę, w której wartości X mają błąd pomiaru. Chciałbym zamodelować prawdziwe podstawowe „średnie” zaobserwowanych wartości cenzurowanych. ⌈ xt r u e+ ϵ ⌉ = xo b s e r v e d ε ~ N( 0 , s d= …

10 mcmc censoring truncation jags

1

Jaka jest średnia i wariancja normalnej wielowymiarowej 0-cenzurowanej?

Niech będzie w . Jaka jest średnia i macierz kowariancji (z maksimum obliczonym elementarnie)?Z∼N(μ,Σ)Z∼N(μ,Σ)Z \sim \mathcal N(\mu, \Sigma)RdRd\mathbb R^dZ+=max(0,Z)Z+=max(0,Z)Z_+ = \max(0, Z) Dzieje się tak np. Dlatego, że jeśli użyjemy funkcji aktywacji ReLU w głębokiej sieci i założymy przez CLT, że wejścia do danej warstwy są w przybliżeniu normalne, to …

9 probability distributions normal-distribution moments censoring

Pytania otagowane jako censoring