Statystyki i duże zbiory danych missing-data

4

Jak ustalić, czy dwie korelacje różnią się znacząco?

Chcę ustalić, który z dwóch zestawów danych (B1, B2) lepiej koreluje (gruszki r) z innym zestawem (A). Brakuje danych we wszystkich zestawach danych. Jak mogę ustalić, czy wynikowa korelacja jest znacząco inna, czy nie? Np. Wartości 8426 są obecne zarówno w A, jak i B1, r = 0,74. 8798 jest …

9 hypothesis-testing correlation statistical-significance missing-data

2

Alternatywne schematy wag dla metaanalizy efektów losowych: brak standardowych odchyleń

Pracuję nad metaanalizą efektów losowych obejmującą szereg badań, w których nie zgłoszono odchyleń standardowych; we wszystkich badaniach podano wielkość próby. Nie sądzę, że możliwe jest przybliżenie lub przypisanie brakujących danych SD. W jaki sposób metaanaliza wykorzystująca surowe (niestandaryzowane) powinna oznaczać różnice jako wielkość efektu, gdy odchylenia standardowe nie są dostępne …

9 stata missing-data meta-analysis meta-regression

2

Uwzględnianie bardziej szczegółowych zmiennych objaśniających w czasie

Próbuję zrozumieć, jak najlepiej modelować zmienną, w której z czasem uzyskiwałem coraz bardziej szczegółowe predyktory. Na przykład rozważ modelowanie stóp odzysku niespłaconych pożyczek. Załóżmy, że mamy zestaw danych z 20-letnimi danymi, a przez pierwsze 15 z tych lat wiemy tylko, czy pożyczka została zabezpieczona, czy nie, ale nic o cechach …

9 regression missing-data

1

Prognozowanie za pomocą randomForest (R), gdy na niektórych wejściach brakuje wartości (NA)

Mam dokładny randomForestmodel klasyfikacji, którego chciałbym użyć w aplikacji, która przewiduje klasę nowego przypadku. W nowym przypadku nieuchronnie brakuje wartości. Prognozy nie będą działać jako takie dla NA. Jak mam to zrobić? data(iris) # create first the new case with missing values na.row<-45 na.col<-c(3,5) case.na<-iris[na.row,] case.na[,na.col]<-NA iris.rf <- randomForest(Species ~ …

9 r random-forest prediction missing-data

1

Jak porównać obserwowane i oczekiwane zdarzenia?

Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Regresja wielokrotna z brakującą zmienną predykcyjną

Załóżmy, że otrzymaliśmy zestaw danych w postaci i . Zadanie polega na przewidywaniu na podstawie wartości . Szacujemy dwie regresje, w których: ( y,x1,x2), ⋯ ,xn)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n})( y,x1,x2), ⋯ ,xn - 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1})yyyxxxyy=fa1(x1, ⋯ ,xn - 1,xn)=fa2)(x1, ⋯ ,xn - 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, …

9 regression multiple-regression missing-data multicollinearity multiple-imputation

4

Jak radzić sobie z lukami / danymi NaN w danych szeregów czasowych, gdy używasz Matlaba do autokorelacji i sieci neuronowych?

Mam szereg czasowy pomiarów (wysokości-jednowymiarowy szereg). W okresie obserwacji proces pomiaru spadł o kilka punktów czasowych. Tak więc dane wynikowe są wektorem z NaN, w których występują luki w danych. Korzystanie z MATLAB-a powoduje mi problem podczas obliczania autokorelacji ( autocorr) i stosowania sieci neuronowych ( nnstart). Jak należy sobie …

9 time-series dataset matlab autocorrelation missing-data

3

Traktowanie poziomów zmiennych kategorialnych „Nie wiem / Odmówiono”

Modeluję prognozę cukrzycy za pomocą regresji logistycznej. Wykorzystanym zestawem danych jest behawioralny system monitorowania czynników ryzyka (BRFSS) Centrum Kontroli Chorób (CDC). Jedną z niezależnych zmiennych jest wysokie ciśnienie krwi. Jest podzielony na kategorie z następującymi poziomami: „Tak”, „Nie”, „Nie wiem / Odmowa”. Czy podczas usuwania modelu należy usunąć te wiersze …

9 logistic missing-data

7

Korelacja między dwiema zmiennymi o nierównej wielkości

W problemie, nad którym pracuję, mam dwie zmienne losowe, X i Y. Muszę dowiedzieć się, jak ściśle są ze sobą powiązane, ale mają one różne wymiary. Ranga przestrzeni wierszy X wynosi 4350, a ranga przestrzeni wierszy Y jest znacznie większa, w dziesiątkach tysięcy. Zarówno X, jak i Y mają tę …

9 time-series correlation missing-data finance

2

Jak ustalić, czy model przetrwania z brakującymi danymi jest odpowiedni?

Upraszczając nieco, mam około miliona rekordów, które rejestrują czas wejścia i wyjścia ludzi w systemie trwającym około dziesięciu lat. Każdy rekord ma czas wejścia, ale nie każdy rekord ma czas wyjścia. Średni czas w systemie wynosi ~ 1 rok. Brakujące czasy wyjścia występują z dwóch powodów: Osoba nie opuściła systemu …

9 survival missing-data

Pytania otagowane jako missing-data