Statystyki i duże zbiory danych binary-data

1

Jak interpretować współczynnik drugiego stopnia w regresji zmiennych instrumentalnych za pomocą instrumentu binarnego i binarnej zmiennej endogennej?

(dość długi post, przepraszam. Zawiera wiele podstawowych informacji, więc możesz przejść do pytania na dole). Wprowadzenie: Pracuję nad projektem, w którym próbujemy zidentyfikować wpływ binarnej zmiennej endogennej na ciągły wynik, . Stworzyliśmy instrument , który naszym zdaniem jest przypisany losowo.x1x1x_1yyyz1z1z_1 Dane: Same dane są w strukturze panelu z około 34 …

11 econometrics interpretation binary-data instrumental-variables

3

Zmienna wskaźnikowa dla danych binarnych: {-1,1} vs {0,1}

Ja zainteresowany interakcji leczeniem współzmienną w kontekście doświadczeń / randomizacją z binarnego przypisywania traktowania wskaźnik TTT . W zależności od konkretnej metody / źródła widziałem zarówno T={1,0}T={1,0}T=\{1,0\} i dla leczonych i nieleczonych pacjentów.T={1,−1}T={1,−1}T=\{1, -1\} Czy jest jakaś reguła, kiedy używać lub ?{1,0}{1,0}\{1,0\}{1,−1}{1,−1}\{1, -1\} Czym różni się interpretacja?

10 binary-data categorical-encoding

1

Modelowanie autokorelowanych binarnych szeregów czasowych

Jakie jest typowe podejście do modelowania binarnych szeregów czasowych? Czy istnieje papier lub podręcznik, w którym jest to traktowane? Myślę o procesie binarnym z silną autokorelacją. Coś w rodzaju znaku procesu AR (1) rozpoczynającego się od zera. Powiedz X0=0X0=0X_0 = 0 i Xt+1=β1Xt+ϵt,Xt+1=β1Xt+ϵt, X_{t+1} = \beta_1 X_t + \epsilon_t, z …

10 regression time-series logistic binary-data autoregressive

1

Czy kiedykolwiek dobrym pomysłem jest „częściowe uznanie” (ciągły wynik) szkolenia regresji logistycznej?

Trenuję regresję logistyczną, aby przewidzieć, którzy biegacze najprawdopodobniej zakończą wyczerpujący wyścig wytrzymałościowy. Bardzo niewielu biegaczy kończy wyścig, więc mam poważny brak równowagi klas i małą próbkę sukcesów (może kilkadziesiąt). Czuję, że mógłbym uzyskać dobry „sygnał” od dziesiątek biegaczy, którzy prawie to zrobili. (Moje dane treningowe mają nie tylko ukończenie, ale …

10 logistic binary-data continuous-data

1

Jakie są zagrożenia związane z obliczaniem korelacji Pearsona (zamiast tetrachorycznych) dla zmiennych binarnych w analizie czynnikowej?

Prowadzę badania nad grami edukacyjnymi, a niektóre z moich bieżących projektów polegają na wykorzystaniu danych z BoardGameGeek (BGG) i VideoGameGeek (VGG) w celu zbadania związków między elementami projektowania gier (tj. „Osadzonymi w II wojnie światowej”, „wymaga rzucania kostką” ) i oceny tych gier (tj. wyniki na 10). Każdy z tych …

10 r categorical-data factor-analysis binary-data

3

Jak wizualizować bayesowską dobroć do regresji logistycznej

Dla problemu bayesowskiej regresji logistycznej stworzyłem rozkład predykcyjny boczny. Próbuję z rozkładu predykcyjnego i otrzymuję tysiące próbek (0,1) dla każdej mojej obserwacji. Wizualizacja dobroci dopasowania jest mniej niż interesująca, na przykład: Ten wykres pokazuje 10 000 próbek + zaobserwowany punkt odniesienia (sposób w lewo można dostrzec czerwoną linię: tak, to …

10 bayesian data-visualization classification goodness-of-fit binary-data

2

Zalecana procedura analizy czynnikowej danych dychotomicznych z R

Muszę przeprowadzić analizę czynnikową dla zestawu danych złożonego ze zmiennych dychotomicznych (0 = tak, 1 = nie) i nie wiem, czy jestem na dobrej drodze. Za pomocą tetrachoric()tworzę macierz korelacji, na której działam fa(data,factors=1). Wynik jest bardzo zbliżony do wyników, które otrzymuję podczas korzystania z MixFactor , ale to nie …

10 r factor-analysis psychometrics binary-data

1

R regresja liniowa zmienna kategorialna „ukryta” wartość

To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

3

W przypadku problemu z klasyfikacją, jeśli zmienna klasy ma nierówny rozkład, jakiej techniki powinniśmy użyć?

na przykład jeśli mam ocenę punktową zmiennej klasy z dwiema klasami dobrą i złą, gdzie # (dobry) = 700 i # (zły) = 300. Nie chcę skracać danych. jakiej techniki powinienem użyć? Korzystałem z SVM, ale daje to wszystko co złe i dobre w przewidywaniach.

10 classification binary-data

4

Jak podejść do tego problemu z prognozowaniem binarnym?

Mam zestaw danych o następującym formacie. Istnieje wynik binarny rak / brak raka. Każdy lekarz w zbiorze danych widział każdego pacjenta i oceniał go niezależnie od tego, czy pacjent ma raka. Następnie lekarze podają poziom ufności na 5, że diagnoza jest prawidłowa, a poziom ufności jest wyświetlany w nawiasach. Próbowałem …

9 forecasting binary-data psychometrics

5

Jak zmierzyć wydajność klasyfikatora, gdy blisko 100% etykiet klasy należy do jednej klasy?

W moich danych mam zmienną klasy, oznaczoną jako CCC. Wartościami tej klasy są0,10,1{0, 1}(dwójkowy). Prawie wszystkie obserwacjeCCCwynoszą 0 (blisko 100%, a dokładniej 97%). Chciałbym przeprowadzić test „wydajności” na różnych modelach klasyfikacyjnych (może to być dokładność). Obawiam się, że jeśli mam model klasyfikacji, który zawsze klasyfikuje jakąkolwiek obserwację do klasy 0, …

9 classification binary-data model-evaluation

3

Obliczanie Jaccarda lub innego współczynnika asocjacji dla danych binarnych przy użyciu mnożenia macierzy

Chcę wiedzieć, czy istnieje jakikolwiek sposób obliczenia współczynnika Jaccard przy użyciu mnożenia macierzy. Użyłem tego kodu jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } …

9 r matrix binary-data association-measure similarities

2

Oblicz krzywą ROC dla danych

Mam więc 16 prób, w których próbuję uwierzytelnić osobę z cechy biometrycznej za pomocą Hamminga. Mój próg jest ustawiony na 3,5. Moje dane są poniżej i tylko próba 1 jest prawdziwie pozytywna: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

Pytania otagowane jako binary-data