Statystyki i duże zbiory danych data-visualization

1

Łączenie wykresów kalibracyjnych po wielokrotnej imputacji

Chciałbym uzyskać porady dotyczące łączenia wykresów kalibracyjnych / statystyk po wielokrotnym imputacji. W kontekście opracowywania modeli statystycznych w celu przewidywania przyszłego zdarzenia (np. Wykorzystanie danych z rejestrów szpitalnych do przewidywania przeżycia lub zdarzeń po wypisie ze szpitala), można sobie wyobrazić, że brakuje wielu informacji. Wielokrotna imputacja jest sposobem na poradzenie …

15 data-visualization data-imputation multiple-imputation pooling calibration

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

11

Wyświetlanie trzech informacji na wykresie

Uwaga: dołączono teraz 50 punktów surowych danych. Chcę wyświetlić, ile badań wykonałem i ile stron ukończyłem w ciągu tygodnia, w podziale na dni, i zrobiłem to, jak pokazano poniżej: Ludzie mówili mi, że nie mogą zrozumieć wykresów, ale nie mam pojęcia, jak inaczej mogę je wyświetlić. Ponieważ zasadniczo potrzebowałbym trzech …

15 data-visualization

1

Jaka intuicja kryje się za wymiennymi próbkami pod hipotezą zerową?

Testy permutacyjne (zwane również testem randomizacji, testem ponownej randomizacji lub testem dokładnym) są bardzo przydatne i przydają się, gdy t-testnie jest spełnione założenie o rozkładzie normalnym wymagane na przykład i gdy transformacja wartości przez ranking test nieparametryczny, Mann-Whitney-U-testktóry prowadziłby do utraty większej ilości informacji. Jednak nie należy zapominać o jednym …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

Interpretacja wykresów zmiennych LASSO

Jestem nowy w glmnetpakiecie i nadal nie jestem pewien, jak interpretować wyniki. Czy ktoś mógłby mi pomóc przeczytać poniższy wykres śledzenia? Wykres uzyskiwano, wykonując następujące czynności: library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, …

15 r data-visualization interpretation lasso glmnet

1

Wizualizacja wyników modeli mieszanych

Jednym z problemów, które zawsze miałem z modelami mieszanymi, jest wymyślanie wizualizacji danych - takich, które mogłyby skończyć się na papierze lub plakacie - gdy tylko uzyska się wyniki. Obecnie pracuję nad modelem efektów mieszanych Poissona z formułą, która wygląda mniej więcej tak: a <- glmer(counts ~ X + Y …

15 r data-visualization mixed-model

2

Łączenie klasyfikatorów poprzez rzut monetą

Studiuję kurs uczenia maszynowego, a slajdy z wykładami zawierają informacje, które uważam za sprzeczne z zalecaną książką. Problem jest następujący: istnieją trzy klasyfikatory: klasyfikator A zapewniający lepszą wydajność w dolnym zakresie progów, klasyfikator B zapewniający lepszą wydajność w wyższym zakresie progów, klasyfikator C to, co otrzymujemy, przerzucając monetę p i …

15 machine-learning probability data-visualization classification roc

3

Najlepszy sposób na wizualizację ścierania za pomocą R?

Na tej stronie niedawno odkryłem diagramy Sankeya, świetny sposób na wizualizację tego, co dzieje się w tradycyjnym schemacie blokowym. Oto dobry przykład diagramu Sankeya autorstwa George'a M. Whitesidesa i George'a W. Crabtree , Source; Nie zapomnij o długoterminowych podstawowych badaniach w dziedzinie energii , nauki 9 lutego 2007 r .: …

15 r data-visualization sankey-diagram

1

Jak wykreślić funkcję schodkową za pomocą ggplot?

Zablokowana . To pytanie i odpowiedzi są zablokowane, ponieważ pytanie jest nie na temat, ale ma znaczenie historyczne. Obecnie nie akceptuje nowych odpowiedzi ani interakcji. Mam taki wykres: Kod R do jego wygenerowania to: DF <- data.frame(date = as.Date(runif(100, 0, 800),origin="2005-01-01"), outcome = rbinom(100, 1, 0.1)) DF <- DF[order(DF$DateVariable),] #Sort …

15 r data-visualization ggplot2

4

Jak mogę poprawić swoją analizę wpływu reputacji na głosowanie?

Niedawno przeprowadziłem analizę wpływu reputacji na opinie (patrz blog ), a następnie miałem kilka pytań na temat być może bardziej pouczającej (lub bardziej odpowiedniej) analizy i grafiki. Tak więc kilka pytań (i nie krępuj się odpowiadać każdemu w szczególności i ignoruj pozostałe): W obecnym wcieleniu nie miałem na myśli wyśrodkowania …

15 data-visualization large-data fixed-effects-model

2

Pokaż średnią zamiast mediany w boxplot [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 5 miesięcy temu . Podczas kreślenia wykresu pudełkowego za pomocą python matplotblib linie w połowie wykresu są medianą rozkładu. Czy istnieje możliwość, aby zamiast tego …

15 data-visualization python matplotlib boxplot

5

Dobry sposób na wyświetlanie wielu danych w formie graficznej

Pracuję nad projektem, który obejmuje 14 zmiennych i 345 000 obserwacji danych mieszkaniowych (takich jak rok budowy, powierzchnia, sprzedana cena, okręg zamieszkania itp.). Niepokoję się próbą znalezienia dobrych technik graficznych i bibliotek R, które zawierają niezłe techniki kreślenia. Już widzę, co w ggplot i sieci będą ładnie działały, i myślę …

15 r data-visualization large-data eda

8

Alternatywna grafika do wykresów „obsługi paska”

W moim obszarze badań popularnym sposobem wyświetlania danych jest użycie kombinacji wykresu słupkowego z „uchwytami”. Na przykład, „Kierownice” zmieniają się pomiędzy standardowymi błędami i standardowymi odchyleniami w zależności od autora. Zazwyczaj rozmiary próbek dla każdego „słupka” są dość małe - około sześciu. Te wykresy wydają się być szczególnie popularne w …

15 data-visualization

1

Najlepszy sposób wizualnego przedstawienia relacji z wielu modeli liniowych

Mam model liniowy z około 6 predyktorami i zamierzam prezentować szacunki, wartości F, wartości p itd. Zastanawiałem się jednak, jaki byłby najlepszy wykres wizualny reprezentujący indywidualny wpływ pojedynczego predyktora na zmienna odpowiedzi? Wykres punktowy? Fabuła warunkowa? Fabuła efektów? itp? Jak interpretowałbym ten wątek? Będę robił to w R, więc możesz …

15 r regression data-visualization multiple-regression partial-plot

3

Jak wykreślić dane wyjściowe klastrowania?

Próbowałem grupować zestaw danych (zestaw znaków) i otrzymałem 2 klastry. Chciałbym to przedstawić graficznie. Trochę zdezorientowany co do reprezentacji, ponieważ nie mam współrzędnych (x, y). Poszukuję również do tego celu MATLAB / Python. EDYTOWAĆ Myślę, że publikowanie danych wyjaśnia pytanie. Mam dwa klastry, które utworzyłem za pomocą klastrowania kmeans w …

15 clustering data-visualization python

Pytania otagowane jako data-visualization